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如 果 你 尚 不 清楚 自己 对 Python 的 熟悉 程度 能 否 跟 得 上 本 书 的 内 容 ， 建 议 
你 回头 看 看 Python 的 官方 教程 。 注 意 ， 除 非 是 跟 Python 3 的 新 特性 有 
关 ， 教 程 里 的 其 他 内 容 本 书 不 会 重复 。 


非 目 标 读者 


如 果 你 才刚 刚 开 始 学 Python， 本 书 的 内 容 可 能 会 显得 有 些 “ 超 纲 ”。 比 难 
懂 更 糟 的 是 ， 如 果 在 学 习 Python 的 过 程 中 过 早 接触 本 书 的 内 容 ， 你 可 能 
会 误 以 为 所 有 的 Python 代码 都 应 该 利用 特殊 方法 和 元 编程 

(metaprogramming) 技巧 。 我 们 知道 ， 不 成 熟 的 抽象 和 过 早 的 优化 一 
样 ， 都 会 坏事 。 


本 书 的 结构 


如 果 你 是 本 书 的 目标 读者 ， 那 你 应 该 可 以 从 本 书 的 任意 一 章 开始 阅读 ， 
但 是 如 果 按 照 我 写作 时 的 构思 来 的 话 ， 本 书 一 共 分 为 六 个 独立 的 部 分 ， 
每 个 部 分 内 的 章节 最 好 按照 顺序 来 读 。 


在 介绍 让 你 自己 实现 某 些 功 能 的 方法 之 前 ， 我 通常 会 先 把 现成 可 用 的 工 
具 讲 清楚 。 比 如 说 第 二 部 分 的 第 2 章 履 盖 了 序列 类 型 〈sequence 
type) ， 但 是 像 collections.deque 这 种 类 可 能 就 会 一 带 而 过 。 一 直 
到 第 四 部 分 ， 我 们 才 会 看 看 如 何 从 抽象 基 类 (abstract base class, 
ABC) 中 获 利 ， 抽 和 象 基 类 则 被 封装 在 collections.abc 这 个 包 里 。 如 
果 想 创建 目 己 的 ABC， 你 可 能 得 看 到 第 四 部 分 的 最 后 一 些 内 容 才 行 ， 
因为 我 一 直觉 得 ， 如 果 没 有 熟练 使 用 ABC 的 经 验 ， 贸 然 去 实现 一 套 自 
己 的 东西 是 不 合适 的 。 


这 样 做 有 几 个 好 处 。 第 一 ， 知 道 有 什么 现成 的 工具 可 用 ， 能 避免 重新 发 
明 轮 子 。 毕 竞 我 们 使 用 现 有 集合 类 型 (collection type) 的 概率 要 远大 于 
目 己 动手 写 一 套 新 的 。 第 二 ， 这 样 一 来 ， 在 讨论 如 何 写 新 类 型 之 前 ， 我 
们 能 够 有 更 多 的 机 会 来 了 解 这 些 现成 类 的 高 级 用 法 。 第 三 ， 比 起 从 零 开 
始 构 建 一 个 ABC， 继 承 已 有 的 ABC 库 应 该 会 简单 一 些 。 最 后 ， 我 认为 
在 看 过 一 些 实际 的 案例 之 后 ， 理 解 抽象 会 更 轻松 。 

当然 ， 这 样 也 会 带 来 一 些 不 便 之 处 ， 比 如 书 里 的 同 前 引用 融会 分 散在 各 
个 不 同 的 章节 里 面 。 但 是 经 过 上 述 这 番 梳 理 ， 我 想 这 一 点 不 便 之 处 也 是 
可 以 容忍 的 。 


下 面 是 本 书 每 一 部 分 的 主题 。 


第 一 部 分 


第 一 部 分 只 有 单独 的 一 章 ， 讲 解 的 是 Python 的 数据 模型 (data 
model) ， 以 及 如 何 为 了 保证 行为 一 致 性 而 使 用 特殊 方法 《比如 
—_repr__) ， 毕 竟 Python 的 一 致 性 是 出 了 名 的 。 其 实 整 本 书 几乎 都 是 
在 讲解 Python 的 数据 模型 ， 第 1 章 算 是 一 个 概览 。 


了 Ht 


第 二 部 分 


第 二 部 分 包含 了 各 种 集合 类 型 : 序列 (sequence) . BRAY 

(mapping) 和 集合 〈set) ， 另 外 还 提 及 了 字符 串 〈str) 和 字 节 序列 
(bytes) 的 区 分 。 说 起 来 ， 最 后 这 一 点 也 是 让 杀 者 (Python 3 用 户 ) 
快 ， 仇 者 (Python2 用 户 ) 痛 的 一 个 关键 ， 因 为 这 个 区 分 致使 Python 2 
代码 迁移 到 Python 3 的 难度 陡 增 。 第 二 部 分 的 目标 是 帮助 读者 回忆 起 
Python 内 置 的 类 库 ， 顺 带 解 释 这 些 类 库 的 一 些 不 太 直 观 的 地 方 。 有 具体 的 
例子 有 Python 3 如 何在 我 们 观察 不 到 的 地 方 对 dict 的 键 重新 排序 ， 或 
者 是 排序 有 区 域 Clocale) 依赖 的 字符 串 时 的 注意 事项 。 为 了 达到 本 部 
分 的 目标 ， 有 些 地方 的 讲解 会 比较 大 而 全 ， 像 序列 类 型 和 映射 类 型 的 变 
种 就 是 这 样 ， 有 时 则 会 写 得 很 深入 ， 比 方 说 我 会 对 dict 和 set 底层 的 
散 列 表 进 行 深层 次 的 讨论 。 


第 三 部 分 


如 何 把 函数 作为 一 等 对 象 〈first-order object) 来 使 用 。 第 三 部 分 首 
先 会 解释 前 面 这 人 句 话 是 什么 意思 ， 然 后 话题 延伸 到 这 个 概念 对 那些 被 广 
泛 使 用 的 设计 模型 的 影响 ， 最 后 读者 会 看 到 如 何 利用 亲 包 《〈closure) 的 
概念 来 实现 函数 装饰 器 (function decorator) 。 这 一 部 分 的 话题 还 包括 
Python 的 这 些 基 本 概念 : 可 调用 (callable〉、 了 函数 属性 (function 
attribute) 、 内 省 〈introspection) 、 参 数 注解 (parameter annotation) 和 
Python 3 里 新 出 现 的 nonlocal 声明 。 


第 四 部 分 


到 了 这 里 ， 书 的 重点 转移 到 了 关 的 构建 上 面 。 虽 然 在 第 二 部 分 里 的 
例子 里 就 有 类 声明 (class declaration) 的 出 现 ， 但 是 第 四 部 分 会 呈现 更 
多 的 类 。 和 任何 面向 对 象 语言 一 样 ，Python 还 有 些 上 自己 的 特性 ， 这 些 特 
性 可 能 并 不 会 出 现在 你 我 学 习 基 于 类 的 编程 的 语言 中 。 这 一 部 分 的 章节 
解释 了 引用 Creference) 的 原理 、“ 可 变性 ”的 概念 、 实 例 的 生命 周期 、 
如 何 构建 自 定义 的 集合 类 型 和 ABC、 多 重 继承 该 怎么 理 顺 、 什 么 时 候 
应 该 使 用 操作 符 重 载 及 其 方法 。 


第 五 部 分 


Python 中 有 些 结构 和 库 不 再 满足 于 诸如 条 件 判 断 、 循 环 和 子 程序 
(subroutine) 之 类 的 顺序 控制 流程 ， 第 五 部 分 的 笔墨 会 集中 在 这 些 构 造 
和 库 上 。 我 们 会 从 生成 器 〈generator) 起 步 ， 然 后 话题 会 转移 到 上 下 文 
管理 器 (context manager) 和 协 程 (coroutine) ， 其 中 会 涵盖 新 增 的 功能 


强大 但 又 不 容易 理解 的 yield from 语法 。 这 一 部 分 以 并 发 性 和 面向 事 
件 的 IO 来 结尾 ， 其 中 跟 并 发 性 相关 的 是 collections.futures 这 个 
很 新 的 包 ， 它 借助 futures 包 把 线程 和 进程 的 概念 给 封装 了 起 来 ， 而 
跟 面 向 事件 IO 相关 的 则 是 asyncio， 它 的 背后 是 基于 协 程 和 yield 
from 的 futures &. 


第 六 部 分 


第 六 部 分 的 开头 会 讲 到 如 何 动态 创建 带 属性 的 类 ， 用 以 处 理 诸 如 
JSON 这 类 半 结 构 化 的 数据 。 然 后 会 从 大 家 已 经 熟悉 的 特性 (property) 
机 制 入 手 ， 用 描述 符 从 底层 来 解释 Python 对 象 属 性 的 存 取 。 同 时 ， 函 
数 、 方 法 和 描述 符 的 关系 也 会 被 梳理 一 遍 。 第 六 部 分 会 从 头 至 尾 地 实现 
一 个 字段 验证 器 ， 在 这 个 过 程 中 我 们 会 遇 到 一 些微 妙 的 问题 ， 然 后 在 最 
后 一 章 中 就 自然 引出 像 类 装饰 器 (class decorator) 和 元 类 (metaclass ) 
这 些 高 级 的 概念 。 


以 实践 为 基础 


一 般 情况 下 ， 我 们 会 用 Python 的 交互 式 控制 台 来 探索 各 种 库 和 语言 本 
号 。 有 些 读者 可 能 对 静态 的 需要 编译 的 语言 更 熟悉 ， 但 是 这 些 语言 可 能 
不 会 提供 REPL (read-eval-print loop， 读 取 、 求 值 、 输 出 的 循环 ) 。 在 
这 里 我 想 强调 一 下 Python 交互 式 控制 台 ， 也 就 是 REPL， 作 为 一 个 学 习 
工具 的 重要 性 。 


doctest Chttps://docs.python.org/3/library/doctest.html) 是 Python 的 一 个 标 

准 库 ， 做 测试 用 的 。 这 个 库 通 过 模拟 控制 台 对 话 来 检验 表达 式 求 值 是 否 

正确 ， 而 本 书 中 几乎 所 有 代码 的 测试 ， 包 括 那 些 在 控制 台 里 的 输出 ， 都 

是 通过 这 个 库 来 进行 的 。doctest 看 起 来 束 像 是 Python 交互 式 控制 台 的 剧 

ao 了 解 它 背后 的 运行 机 制 就 可 以 直接 用 它 来 试验 书 里 
J 例子 。 


我 有 时 为 了 事先 说 明 一 段 代 码 的 目的 ， 会 在 展示 代码 之 前 先 摆 出 相应 的 
doctest 文本 。 这 是 因为 我 认为 ， 在 考虑 如 何 实现 一 个 功能 之 前 ， 先 严格 
地 列 出 这 个 功能 能 做 什么 ， 这 能 帮助 我 们 在 编程 时 把 精力 花 在 该 花 的 地 
方 。 测 试 驱 动 开 发 TDD) 的 精髓 就 是 先 写 测试 ， 我 后 来 发 现 这 种 精神 
在 教学 中 也 是 大 有 益处 的 。 如 果 你 对 doctest 还 不 熟悉 ， 花 点 时 间 阅 读 

它 的 文档 Chttps://docs.python.org/3/library/doctest.html) 。 结 合 本 书 的 源 
码 Chttps://github.com/fluentpython/example-code) ， 你 可 以 在 操作 系统 的 
控制 台 里 键入 python3 -m doctest example script.py 来 验证 书 

中 几乎 所 有 代码 的 正确 性 。 


使 件 


书 中 有 一 些 简单 的 时 间 和 基准 测试 ， 跑 这 些 测试 的 时 候 我 用 的 是 写 书 时 
的 两 台 笔 记 本 电脑 。 一 台 是 产 于 2011 年 的 MacBook Pro 13 英寸 笔记 
本 ， 配 置 是 2.7 GHz 的 英特尔 Core i7 处 理 器 、8GB 的 内 存 和 机 械 硬 
盘 ， 另 一 台 是 产 于 2014 年 的 MacBook Air 13 英寸 笔记 本 ， 配 置 是 1.4 
GHz 的 英特尔 Core i5 处 理 器 、4GB 内 存 和 一 个 固态 硬盘 。MacBook Air 
的 处 理 器 虽然 慢 一 些 ， 内 存 也 没有 男 一 台 多 ， 但 是 它 的 内 存 快 一 些 
(1600 MHz, MacBook Pro 13 英寸 则 是 1333 MHz) ， 另 外 它 的 硬盘 也 
更 快 ， 因 此 在 日 常 使 用 中 我 并 没有 感觉 到 两 台 笔记 本 有 速度 上 的 差异 。 


RA: 个 人 的 一 反 看 法 


从 1998 年 起 ， 我 一 直 在 使 用 Python， 也 做 Python 教学 ， 另 外 还 一 直 在 
为 它 辩 护 。 我 一 直 都 很 享受 这 个 过 程 ， 尤 其 是 喜欢 研究 Python 同 其 他 语 
言 在 设计 和 理论 上 的 不 同 。 因 此 在 有 些 章节 的 最 后 ， 我 会 加 上 一 点 自己 
对 Python 以 及 其 他 语言 的 看 法 ， 我 把 这 部 分 叫 作 “杂谈 ”。 如 果 你 对 这 些 
东西 不 感 兴趣 ， 跳 过 即 可 ， 因 为 这 些 并 不 是 必 读 的 。 


Python 术语 表 


我 希望 这 本 书 不 仅仅 是 关于 Python 的 ， 也 是 关于 Python 的 文化 的 。 在 
过 去 20 多 年 的 交流 中 ，Python 社区 形成 了 它 独 有 的 行 话 和 缩写 。 本 书 
的 最 后 有 一 部 分 叫 “Python 术语 表 ”， 里 面 列 出 了 在 Python 爱好 者 中 具有 
特别 意义 的 词句 。 


Python}ix A K 


本 书 所 有 的 代码 都 在 Python 3.4 里 测试 过 ， 而 且 是 应 用 最 广 的 用 C 实现 
的 CPython 3.4。 只 有 一 个 例外 ， 在 13.4 节 中 的 “Python 3.5 新 引入 的 中 组 
@” 附 注 栏 里 ， 我 提 到 了 新 的 @ 运算 符 ， 它 只 在 Python 3.5 里 被 支 
Fo 


凡是 支持 Python 3.x 的 解释 器 一 一 包括 PyPy3 2.4.0 一 一 都 可 以 运行 书 里 
的 代码 (PyPy3 2.4.0 其 实 已 经 支持 Python 3.2.5) 。 有 一 点 需要 注意 的 
是 ，yield from 和 asyncio 只 在 Python 3.3 或 者 更 新 的 版 本 里 才 有 。 


几乎 所 有 的 代码 稍 做 修改 后 都 能 在 Python 2.7 里 运行 ， 除 了 第 4 章 中 那 
些 跟 Unicode 相关 的 例子 ， 这 是 从 Python 3 出 现 以 来 就 有 的 问题 。 


排版 约定 
本 书 使 用 了 下 列 排 版 约定 。 
。 楷 体 
表示 新 术语 。 
。 等 宽 字 体 (constant width) 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 
型 、 环 境 变量 、 语 句 和 关键 字 等 。 


。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 
。 “ERRUA (Constant width italic) 


AST WV FHA Pa A FY LB AR EP SC EA PRA A 


A 该 图 标 表示 提示 或 建议 。 


` 该 图 标 表示 一 般 注 记 。 


Pes 该 图 标 表示 警告 或 警示 。 


使 用 代码 示例 


书 中 的 所 有 完整 代码 和 大 多 数 程序 片段 都 可 以 从 本 书 的 GitHub 代码 库 
中 获取 Chttps://github.com/fluentpython/example-code) 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 
明 一 般 包 括 书 名 、 作 者 、 出 版 社 和 ISBN。 比 如 : “Fluent Python by 
Luciano Ramalho (O'Reilly). Copyright 2015 Luciano Ramalho, 978-1-491- 
94600-8.” 


Safari® Books Online 


S Safal i 


afari Books Onlinehttp://www.safaribooksonline.com) 是 应 运 而 生 的 数字 
ee aaa ee 
业 作 品 。 


技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开 
展 调研 、 解 决 问题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 
获取 资料 的 首选 渠道 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 
合 和 灵活 的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 
O'Reilly Media. Prentice Hall Professional, Addison-Wesley 
Professional. Microsoft Press. Sams. Que, Peachpit Press. Focal 

Press. Cisco Press, John Wiley & Sons, Syngress. Morgan Kaufmann, 
IBM Redbooks, Packt. Adobe Press, FT Press. Apress. Manning, New 
Riders. McGraw-Hill. Jones & Bartlett. Course Technology 以 及 其 他 几 
十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 要 了 解 
Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 


O'Reilly Media, Inc. 


1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京) 有限 公司 
O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那里 找到 本 书 的 相关 信 
恩 ， 包 括 勘误 表 、 示 例 以 及 其 他 信息 。 本 书 的 网 站 地 址 
是 : http://shop.oreilly.com/product/0636920032519.do 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions@oreilly.com 


要 了 解 更 多 O'Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 
网 站 : http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.convoreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.conyoreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia 
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电子 书 


扫描 如 下 


维 码 ， 即 可 购买 本 书 电子 版 。 


第 1 章 Python 数据 模型 


Guido 对 语言 设计 美学 的 深入 理解 让 人 震惊 。 我 认识 不 少 很 不 错 的 
编程 语言 设计 者 ， 他 们 设计 出 来 的 东西 确实 很 精彩 ， 但 是 从 来 都 不 
会 有 用 户 。Guido 知道 如 何在 理论 上 做 出 一 定 妥协 ， 设 计 出 来 的 语 
言 让 使 用 者 觉得 如 沐 春风 ， 这 真是 不 可 多 得 。1 


Jim Hugunin 
Jython 的 作者 ，Aspect 的 作者 之 一 ，.NET DLR 架构 师 


1 摘自 “Story of Jython” Chttp//hugunin.net/story_of jython.html) ， 这 是 Jython Essentials (Samuele 
Pedroni 和 Noel Rappin 3, O'Reilly 出 版 社 ，2002 年 ) 一 书 的 序 。 


Python 最 好 的 品质 之 一 是 一 致 性 。 当 你 使 用 Python 工作 一 会 儿 后 ， 束 会 
开始 理解 Python 语言 ， 并 能 正确 猜测 出 对 你 来 说 全 新 的 语言 特征 。 


然而 ， 如 有 果 你 带 着 来 自 其 他 面 癌 对 象 语言 的 经 验 进 入 Python 的 世界 ， 会 
对 len(colleciton) 而 不 是 collection.len() 写法 觉得 不 适 。 当 你 
进一步 理解 这 种 不 适 感 背后 的 原因 之 后 ， 会 发 现 这 个 原因 ， 和 它 所 代表 
的 庞大 的 设计 思想 ， 是 形成 我 们 通常 说 的 “Python 风格 ”(Pythonic〉 的 关 
键 。 这 种 设计 思想 完全 体现 在 Python 的 数据 模型 上 ， 而 数据 模型 所 描述 
的 API， 为 使 用 最 地 道 的 语言 特性 来 构建 你 自己 的 对 象 提供 了 工具 。 


数据 模型 其 实 是 对 Python 框架 的 描述 ， 它 规范 了 这 门 语言 自身 构建 模块 
的 接口 ， 这 些 模块 包括 但 不 限于 序列 、 和 迭代 器 、 函 数 、 类 和 上 下 文 省 理 
AÑ o 
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调用 的 方法 ， Python 也 不 例外 。Python 解释 器 碰 到 特殊 的 句法 时 ， 会 使 
用 特殊 方法 去 激活 一 些 基 本 的 对 象 操作 ， 这 些 特殊 方法 的 名 字 以 两 个 下 
划 线 开头 ， 以 两 个 下 划 线 结尾 〈 例 如 getitem__) 。 比 如 obj[key] 
的 背后 就 是 __getitem__ 方法 ， 为 了 能 求 得 my_collection[key] 的 
值 ， 解 释 器 实际 上 会 调用 my_collection. getitem (key)。 


这 些 特殊 方法 名 能 让 你 自己 的 对 象 实现 和 支持 以 下 的 语言 构 染 ， 并 与 之 


。 属性 访问 

。 运算 符 重 载 

。 函数 和 方法 的 调用 

。 对 象 的 创建 和 销毁 

。 字符 串 表示 形式 和 格式 化 
。 管理 上 下 文 〈 即 with 块 ) 


A magic 和 dunder 


BEATTIE (magic method) 是 特殊 方法 的 昵称 。 有 些 Python 开发 者 
在 提 到 getitem_ 这 个 特殊 方法 的 时 候 ， 会 用 诸如 “下 划 线 一 下 
划 线 一 getitenr% 这 种 说 法 ， 但 是 显然 这 种 说 法 会 引起 歧义 ， 因 为 
像 _x 这 种 命名 在 Python 里 还 有 其 他 含义 ,，， 但 是 如 果 完整 地 说 
出 “下 划 线 一 下 划 线 一 getitem — PRIZAR— FRIR”, MSR. 
于 是 我 跟着 Steve Holden， 一 位 技术 书 作 者 和 老师 ， 学 会 了 “ 双 下 一 
getitenm?”( dunder-getitem)〉 这 种 说 法 。 于 是 乎 ， 特 殊 方法 也 叫 双 下 
方法 (dunder method) . 4 


7H) under-under-getitme 的 直译 。 译 者 注 


3 注 3: 详 见 9.7 节 。 


4 我 是 从 Steve Holden 那里 第 一 次 听 说 dunder 这 个 说 法 的 。 根 据 维基 百科 的 解释 ，Mark Johnson 
和 Time Hochberg 是 最 早 在 书号 中 开始 使 用 这 个 词 的 人 
(httpsy/en.wikipedia.org/wikiReserved_ word#Reserved ranges) 。 那 是 2002 年 9 月 26 日 ， 他 们 
两 人 在 邮件 列表 里 回复 《〈 双 下 划 线 ) 怎么 念 ? ”这 个 问题 时 提 到 了 dunder， 最 先 回复 的 是 
Johnson Chttps://mail.python.org/pipermail/python-list/2002-September/112991.html) , 11 分 钟 后 


| Hochberg 也 回复 了 Chttps://mail.python.org/pipermail/python-list/2002-September/114716.html) 。 


11 一 操 Python 风 格 的 纸牌 

接 下 来 我 会 用 一 个 非常 简单 的 例子 来 展示 如 何 实现 __getitme_ 和 

于 len 这 两 个 特殊 方法 ， 通 过 这 个 例子 我 们 也 能 页 识 到 特殊 亡 法 的 
示例 1-1 里 的 代码 建立 了 一 个 纸牌 类 。 


示例 1-1 一 把 有 序 的 纸牌 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self. cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_(self): 
return len(self. cards) 


def _ getitem_(self, position): 
return self. _cards[ position] 


首先 ， 我 们 用 collections.namedtuple 构建 了 一 个 简单 的 类 来 表示 
一 张 纸 牌 。 自 Python 2.6 开始 ，namedtuple 就 加 入 到 Python 里 ， 用 以 
构建 只 有 少数 属性 但 是 没有 方法 的 对 象 ， 比 如 数据 库 条 目 。 如 下 面 这 个 
Re 利用 namedtuple， 我 们 可 以 很 轻松 地 得 到 一 个 纸牌 
XY ZR: 


>>> beer_card = Card('7', ‘diamonds’ ) 


>>> beer_card 
Card(rank='7', suit='diamonds' ) 


当然 ， 我 们 这 个 例子 主要 还 是 关注 FrenchDeck 这 个 类 ， 它 既 短 小 又 精 
悍 。 首 先 ， 它 跟 任 何 标准 Python 集合 类 型 一 样 ， 可 以 用 len() 函数 来 
BABA SDK: 


>>> deck = FrenchDeck() 
>>> len(deck) 
52 


从 一 县 牌 中 抽取 特定 的 一 张 纸 牌 ， 比 如 说 第 一 张 或 最 后 一 张 ， 是 很 容易 
HJ: deck[@] 或 deck[-1]。 这 都 是 由 getitem _ 方法 提供 的 : 


>>> deck[6] 
Card(rank='2', suit='spades' ) 


>>> deck[-1] 
Card(rank='A', suit='hearts') 


我 们 需要 单独 写 一 个 方法 用 来 随机 抽取 一 张 纸牌 吗 ? 没 必 要 ，Python 已 


经 内 置 了 从 一 个 序列 中 随机 选 出 一 个 元 素 的 函数 random.choice， 我 
们 直接 把 它 用 在 这 一 操 纸 牌 实例 上 就 好 : 


>>> from random import choice 
>>> choice(deck) 
Card(rank='3', suit='hearts') 
>>> choice(deck) 


Card(rank='K', suit='spades' ) 
>>> choice(deck) 
Card(rank='2', suit='clubs') 


现在 已 经 可 以 体会 到 通过 实现 特殊 方法 来 利用 Python 数据 模型 的 两 个 好 
处 。 


。 作 为 你 的 类 的 用 户 ， 他 们 不 必 去 记 住 标准 操作 的 各 式 名 称 (“怎么 
得 到 元 系 的 总 数 ? 是 .size() 还 是 .length() 还 是 别 的 什 
AT) ox 


e 可 以 更 加 方便 地 利用 Python 的 标准 库 ， 比 如 random. choice pf 
数 ， 从 而 不 用 重新 发 明 轮子 。 


而 且 好 戏 还 在 后 面 。 


因为 ”getitem _ 方法 把 [] 操作 交 给 了 self._cards 列表 ， 所 以 我 
们 的 deck 类 自动 支持 切片 〈slicing) 操作 。 下 面 列 出 了 查看 一 操 牌 最 
上 面 3 张 和 只 看 牌 面 是 A 的 牌 的 操作 。 其 中 第 二 种 操作 的 具体 方法 是 ， 
先 抽出 索引 是 12 的 那 张 牌 ， 然 后 每 隔 13 张 牌 拿 1 张 : 


>>> deck[ :3] 
[Card(rank='2', suit='spades'), Card(rank='3', suit='spades'), 


Card(rank='4', suit='spades' ) ] 


>>> deck[12::13] 
[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 


另外 ， 仅 仅 实现 了 __getitem_ Wik, XREN ERER T : 


>>> for card in deck: # doctest: +ELLIPSIS 
print(card) 
Card(rank='2', suit='spades' ) 


Card(rank='3', suit='spades' ) 
Card(rank='4', suit='spades' ) 


反 回 迭代 也 没关系 : 


>>> for card in reversed(deck): # doctest: +ELLIPSIS 


print(card) 
Card(rank='A', suit='hearts') 
Card(rank='K', suit='hearts' ) 
Card(rank='Q', suit='hearts' ) 


` doctest 中 的 省 略 


为 了 尽 可 能 保证 书 中 的 Python 控制 台 会 话 内 容 的 正确 性 ， 这 些 内 容 

都 是 直接 从 doctest 里 摘录 的 。 在 测试 中 ， 如 果 可 能 的 输出 过 长 的 

话 ， 那 么 过 长 的 内 容 就 会 被 如 上 面 例子 的 最 后 一 行 的 省 略 号 
C...) 所 替代 。 此 时 就 需要 #doctest: +ELLIPSIS 这 个 指令 来 

保证 doctest FAVA. BK CRAB HIT fell a Fit 

人 码 ， 可 以 略 过 这 一 指令 。 


TAR ea, Suw ARARA contains FF 
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用 在 我 们 的 FrenchDeck 类 上 ， 因 为 它 是 可 迭代 的 : 


>>> Card('Q', 'hearts') in deck 
True 


>>> Card('7', ‘'beasts') in deck 
False 


那么 排序 呢 ? RARE, ALR BORA EFRR, 2 最 小 、A 
最 大 ， 同 时 还 要 加 上 对 花色 的 判定 ， 黑 桃 最 大 、 红 桃 次 之 、 方 块 再 次 、 
梅花 最 小 。 下 面 就 是 按照 这 个 规则 来 给 扑 死 牌 排序 的 函数 ， 梅 花 2 的 大 
小 是 6， 黑 桃 A 是 51: 


suit_values = dict(spades=3, hearts=2, diamonds=1, clubs=@) 
def spades_high(card): 
rank_value = FrenchDeck.ranks.index(card.rank) 
return rank_value * len(suit_values) + suit_values[card.suit] 


有 了 spades_high 函数 ， 束 能 对 这 把 牌 进行 升序 排序 了 : 


>>> for card in sorted(deck, key=spades high): # doctest: +ELLIPSIS 
ses print(card) 

Card(rank='2', suit='clubs') 

Card(rank='2', suit='diamonds') 


Card(rank='2', suit='hearts' ) 
... (46 cards ommitted) 
Card(rank='A', suit='diamonds') 
Card(rank='A', suit='hearts') 
Card(rank='A', suit='spades' ) 


虽然 FrenchDeck 隐 式 地 继承 了 object %, > 但 功能 却 不 是 继承 而 来 
的 。 我 们 通过 数据 模型 和 一 些 合成 来 实现 这 些 功能 。 通 过 实现 _ len__ 
和 ”getitem _ 这 两 个 特殊 方法 ，FrenchDeck 就 跟 一 个 Python 自 有 
的 序列 数据 类 型 一 样 ， 可 以 体现 出 Python 的 核心 语言 特性 《例如 迭代 和 
切片 ) 。 同 时 这 个 类 还 可 以 用 于 标准 库 中 诸如 
random.choice、reversed 和 sorted 这 些 函 数 。 另 外 ， 对 合成 的 运 
用 使 得 _len 和 getitem _ 的 具体 实现 可 以 代理 给 self._cards 
这 个 Python 列表 CH list 对 象 ) 。 


5 在 Python 2 F, X} object 的 继承 需要 显 式 地 写 为 FrenchDeck(object); 而 在 Python 3 中 ， 
这 个 继承 关系 是 默认 的 。 


` 如 何 洗 牌 


按照 目前 的 设计 ，FrenchDeck 是 不 能 洗 牌 的 ， 因 为 这 把 有 牌 是 不 可 
变 的 (immutable〉: 卡 牌 和 它们 的 位 置 都 是 固定 的 ， 除 非 我 们 破坏 
这 个 类 的 封装 性 ， 直 接 对 cards 进行 操作 。 第 11 章 会 讲 到 ， 其 
需要 一 行 代码 来 实现 setitem _ 方法 ， 洗 牌 功 能 就 不 是 问 
题 了 。 


1.2 如何 使 用 特殊 方法 


首先 明确 一 点 ， 特 殊 方 法 的 存在 是 为 了 被 Python 解释 器 调用 的 ， 你 上 自己 
并 不 需要 调用 它们 。 也 就 是 说 没有 my_object.__len__() 这 种 写法 ， 
而 应 该 使 用 len(my_object)。 在 执行 len(my_object) 的 时 候 ， 如 果 
my_object 是 一 个 自 定义 类 的 对 象 ， 那 么 Python 会 自己 去 调用 其 中 由 
你 实现 的 __len _ 方法 。 


然而 如 果 是 Python 内 置 的 类 型 ， 比 如 列表 (Cist), FFE (str) 、 
字 节 序列 (bytearray) 等 ， 那 么 CPython 会 抄 个 近 路 ， len 实际 
上 会 直接 返回 PyVarObject 里 的 ob_size 属性 。PyVarobject 是 表示 
内 存 中 长 度 可 变 的 内 置 对 象 的 C 语言 结构 体 。 直 接 读 取 这 个 值 比 调用 一 
个 方法 要 快 很 多 。 


很 多 时 候 ， 特 殊 方 法 的 调用 是 隐 式 的 ， 比 如 for i in x: 这 个 语句 ， 
背后 其 实用 的 是 iter(x)， 而 这 个 函数 的 背后 则 是 x. iter () 方 
法 。 当 然 前 提 是 这 个 方法 在 x 中 被 实现 了 。 


通常 你 的 代码 无 需 直 接 使 用 特殊 方法 。 除 非 有 大 量 的 元 编程 存在 ， 直 接 
调用 特殊 方法 的 频率 应 该 远 远 低 于 你 去 实现 它们 的 次 数 。 唯 一 的 例外 可 
能 是 __init__ 方 法， 你 的 代码 里 可 能 经 第 会 用 到 它 ， 目 的 是 在 你 自己 
的 子 类 的 init “方法 中 调用 超 类 的 构造 器 。 


通过 内 置 的 函数 (例如 len、iter、str， 等 等 ) 来 使 用 特殊 方法 是 最 
好 的 选择 。 这 些 内 置 函 数 不 仅 会 调用 特殊 方法 ， 通 常 还 提供 额外 的 好 
处 ， 而 且 对 于 内 置 的 类 来 说 ， 它 们 的 速度 更 快 。14.12 节 中 有 详细 的 例 
ae 


不 要 目 己 想当然 地 随意 添加 特殊 方法 ， 比 如 foo “之 类 的 ， 因 为 虽 
然 现在 这 个 名 字 没 有 被 Python 内 部 使 用 ， 以 后 就 不 一 定 了 。 


1.2.1 模拟 数值 类 型 


利用 特殊 方法 ， 可 以 让 目 定 义 对 象 通过 加 号 “+”《 或 是 别 的 运算 符 ) 进 
行 运算 。 第 13 草 对 此 有 详细 的 介绍 ， 现 在 只 是 借用 这 个 例子 来 展示 特 


殊 方 法 的 使 用 。 


我 们 来 实现 一 个 二 维 向 量 (vector) 类 ， 这 里 的 向 量 束 是 欧 几 里 得 几何 
中 常用 的 概念 ， 常 在 数学 和 物理 中 使 用 的 那个 ( 见 图 1-1) 。 


Vector(4, 5) 


Vector(2, 4) 


Vector(2, 1) 


X 
图 1-1: 一 个 二 维 同 量 加 法 的 例子 ，Vector(2,4) + Vextor(2,1) = 


Vector(4,5) 


A Python 内 置 的 complex 类 可 以 用 来 表示 二 维 向 量 ， 但 我 们 这 
个 目 定 义 的 类 可 以 扩展 到 维 向 量 ， 详 见 第 14 章 。 


为 了 给 这 个 类 设计 API， 我 们 先 写 个 模拟 的 控制 台 会 话 来 做 doctest。 下 
面 这 一 段 代码 就 是 图 1-1 所 示 的 向 量 加 法 : 


>>> v1 = Vector(2, 4) 
>>> v2 = Vector(2, 1) 
>>> v1 + v2 
Vector(4, 5) 


注意 其 中 的 + 运算 符 所 得 到 的 结果 也 是 一 个 向 量 ， 而 且 结果 能 被 控制 台 
友好 地 打印 出 来 。 


abs 是 一 个 内 置 函数 ， 如 果 输 入 是 整数 或 者 浮 点 数 ， 它 返回 的 是 输入 值 
的 绝对 值 ， 如 果 输 入 是 复数 (complex number) ， 那 么 返回 这 个 复数 的 
模 。 为 了 保持 一 致 性 ， 我 们 的 API ZEAE) abs 函数 的 时 候 ， 也 应 该 返回 
该 同 量 的 模 : 


>>> v = Vector(3, 4) 
>>> abs(v) 
5.0 


我 们 还 可 以 利用 * 1S PES ee A VE EARE, 
得 到 的 结果 向 量 的 方向 与 原 向 量 一 致 *， 模 变 大 ) : 


5 如 果 向 量 与 负数 相 乘 ， 得 到 的 结果 向 量 的 方向 与 原 向 量 相 反 。 一 一 编者 注 


>>> v * 3 
Vector(9, 12) 


>>> abs(v * 3) 
15.0 


示例 1-2 包含 了 一 个 Vector 类 的 实现 ， 上 面 提 到 的 操作 在 代码 里 是 用 
这 些 特殊 方法 实现 的 : _repr 、_ abs 、 add 和 mul 。 


示例 1-2 一 个 简单 的 二 维 回 量 类 


from math import hypot 


class Vector: 


def init__(self, x=0, y=): 
self.x = x 
self.y = y 


def _repr_ (self): 
return 'Vector(%r, %r)' % (self.x, self.y) 


def _abs (self): 
return hypot(self.x, self.y) 


def _ bool (self): 
return bool(abs(self)) 


def _add (self, other): 
x = self.x + other.x 
y = self.y + other.y 
return Vector(x, y) 


def _ mul_ (self, scalar): 
return Vector(self.x * scalar, self.y * scalar) 


虽然 代码 里 有 6 个 特殊 方法 ， 但 这 些 方法 CBR __init_) 并 不 会 在 


这 个 类 自身 的 代码 中 使 用 。 即 便 其 他 程序 要 使 用 这 个 类 的 这 些 方法 ， 也 
不 会 直接 调用 它们 ， 束 像 我 们 在 上 面 的 控制 人 对 话 中 看 到 的 。 上 文 也 所 
到 过 ， 一 般 只 有 Python 的 解释 器 会 频 蚂 地 直接 调用 这 些 方 法 。 接 下 来 看 
看 每 个 特殊 方法 的 实现 。 


12.2 FIERREN 


Python 有 一 个 内 置 的 函数 叫 repr， 它 能 把 一 个 对 象 用 字符 串 的 形式 表 
达 出 来 以 便 辨 认 ， 这 就 是 “字符 串 表 示 形 式 "”。repr 就 是 通过 repr 
这 个 特殊 方法 来 得 到 一 个 对 象 的 字符 串 表 示 形 式 的 。 如 果 没 有 实现 
__repr ”， 当 我 们 在 控制 台 里 打印 一 个 问 量 的 实例 时 ， 得 到 的 字符 串 
可 能 会 是 <Vector object at @x10e10007@>. 


交互 式 控制 台 和 调试 程序 (debugger) 用 repr 函数 来 获取 字符 串 表 示 
形式 ; 在 老 的 使 用 % 符 号 的 字符 串 格式 中 ， 这 个 函数 返回 的 结果 用 来 代 
B Ar 所 代表 的 对 象 ， 同 样 ，str.format 函数 所 用 到 的 新 式 字符 串 格 
式 化 语法 (https://docs.python.org/2/library/string.html#format-string- 
syntax) 也 是 利用 了 repr， 才 把 Ir 字段 变 成 字符 串 。 


W x 和 str format 这 机 种 格式 化 字符 串 的 手段 在 本 书 中 都 会 
使 用 。 其 实 整个 Python 社区 都 在 同时 使 用 这 两 种 方法 。 个 人 来 讲 ， 
我 越 来 越 喜 欢 str.format 了 ， 但 是 Python 程序 员 更 喜欢 简单 的 
%。 因 此 ， 这 两 种 形式 并 存 的 情况 还 会 持续 下 去 。 


在 repr 的 实现 中 ， 我 们 用 到 了 %r 来 获取 对 象 各 个 属性 的 标准 字 


符 串 表示 形式 一 一 这 是 个 好 习惯 ， 它 暗示 了 一 个 关键 : Vector(1, 2) 
Al Vector('1', '2') 是 不 一 样 的， 后 者 在 我 们 的 定义 中 会 报错 ， 
为 向 量 对 象 的 构造 函 数 只 接受 数值 ， 不 接受 字符 串 “。 


7 实际 上 ，Vector 的 构造 函数 接受 字符 串 。 而 且 ， 对 于 使 用 字符 串 构造 的 Vector， 这 6 个 特 
BITE, AA abs _ 和 bool _ 会 报错 。 此 外 ，1.2.4 节 定 义 的 _ bool _ 不 会 报错 。 
编者 注 


_repr _ 所 返回 的 字符 串 应 该 准确 、 无 歧义 ， 并 且 尽 可 能 表达 出 如 何 
用 代码 创建 出 这 个 被 打印 的 对 象 。 因 此 这 里 使 用 了 类 似 调用 对 象 构造 器 
的 表达 形式 〈 比 如 Vector(3，4) 就 是 个 例子 ) 。 


_repp_M_str _ 的 区 别 在 于 ， 后 者 是 在 str() 函数 被 使 用 ， 或 
是 在 用 print 函数 打印 一 个 对 象 的 时 候 才 被 调用 的 ， 并 且 它 返回 的 字 
符 串 对 终端 用 户 更 友好 。 


如 果 你 只 想 实现 这 两 个 特殊 方法 中 的 一 个 ， repr _ 是 更 好 的 选择 ， 
因为 如 果 一 个 对 象 没 有 __str RAL, m Python 又 需要 调用 它 的 时 
候 ， 解 释 器 会 用 repr EKER. 


~ “Difference between __str_and_repr_in 

Python” (http://stackoverflow.com/questions/1436703/difference- 
between-str-and-repr-in-python) 是 Stack Overflow 上 的 一 个 问题 ， 
Python 程序 员 Alex Martelli 和 Martijn Pieters 的 回答 很 精彩 。 


1.2.3 ”算术 运算 符 


通过 add __ 和 __mul_， 示例 1-2 为 向 量 类 带 来 了 + 和 * 这 两 个 算 
术 运 算 符 。 值 得 注意 的 是 ， 这 两 个 方法 的 返回 值 都 是 新 创建 的 向 量 对 
象 ， 被 操作 的 两 个 向 量 (self 或 other) 还 是 原封 不 动 ， 代 码 里 只 是 
读 取 了 它们 的 值 而 已 。 中 绥 运 算 符 的 基本 原则 就 是 不 改变 操作 对 象 ， 而 
是 产 出 一 个 新 的 值 。 第 13 章 会 谈 到 更 多 这 方面 的 问题 。 


Bes 示例 1-2 只 实现 了 数字 做 乘 数 、 向 量 做 被 乘 数 的 运算 ， 乘 法 
的 交换 律 则 被 忽略 了 。 在 第 13 章 里 ， 我 们 将 利用 __rmul__ 解决 


这 个 问题 。 


12.4 XTE 


尽管 Python 里 有 bool 类 型 ， 但 实际 上 任何 对 象 都 可 以 用 于 需要 布尔 值 
的 上 下 文中 (比如 if while 语句 ， 或 者 and. or 和 not 运算 

符 ) 。 为 了 判定 一 个 值 x 为 真 还 是 为 假 ，Python 会 调用 boo1(x)， 这 个 
函数 只 能 返回 True 或 者 False。 


默认 情况 下 ， 我 们 自己 定义 的 类 的 实例 总 被 认为 是 真 的 ， 除 非 这 个 类 对 
”bool By len 水 数 有 自己 的 实现 。bool(x) 的 背后 是 调用 
x. bool () 的 结果 如果 不 存在 bool Wie, AA bool(x) 会 
AVA x.__len__(). FRE 0, J) bool 会 返回 False; 人 否则 返回 
True. 


我 们 对 bool _ KMR, WORT BE 0， 那 么 就 返回 
False， 其 他 情况 则 返回 True. AA bool _ 也 数 的 返回 类 型 应 该 是 
布尔 型 ， 所 以 我 们 通过 bool(abs(self)) 把 模 值 变 成 了 布尔 值 。 


在 Python 标准 库 的 文档 中 ， 有 一 节 叫 作 “Built-in 

Types” Chttps://docs.python.org/3/library/stdtypes.html#truth) ， 其 中 规定 
了 真 值 检验 的 标准 。 通 过 实现 bool ， 你 定义 的 对 象 束 可 以 与 这 个 
标准 保持 一 致 。 


A 


如 果 想 让 Vector. bool 更 高 效 ， 可 以 采用 这 种 实现 : 


def bool (self): 
return bool(self.x or self.y) 


它 不 那么 易 读 ， 却 能 省 掉 从 abs 到 ”abs _ 到 平方 再 到 平方 根 这 
些 中 间 步 又 。 通 过 bool 把 返回 类 型 显 式 转换 为 布尔 值 是 为 了 符合 
_ bool _ 对 返回 值 的 规定 ， 因 为 or 运算 符 可 能 会 返回 x 或 者 y 

本 身 的 值 ， 若 x 的 值 等 价 于 真 ， 则 or 返回 x 的 值 ， 否 则 返回 y 的 


1.3 ”特殊 方法 一 览 


Python 语言 参考 手册 中 的 “Data 
Model” Chttps:// penne org/3/reference/datamodel.html) 一 章 列 出 了 
ee 其 中 47 个 用 于 实现 算术 运算 、 位 运算 和 比较 操 


表 1-1 和 表 1-2 列 出 了 这 些 方法 的 概况 。 


A x 这 些 表 并 没有 完全 按照 官方 文档 分 
表 1-1: 跟 运 算 符 无 关 的 特殊 方法 


__format_~ _ 


__complex 、__int 、_ O ot __、__index _ 


__getitem 、_ setitem 、__delitem 、__contains_ _ 


__reversed 、_ 


JR eall 


__enter__ . __exit__ 


__getattr__. _ getattribute__~ _ setattr__. _ delattr__. _ dir 


__» __delete__ 


__prepare__. __instancecheck__, __subclasscheck__ 


表 1-2: 跟 运 算 符 相 关 的 特殊 方法 


方法 名 和 对 应 的 运算 符 


_add + sub 


E: 或 p 


mul__ *、_ truediv _/、_ floordiv //~ __ mod  %、__divmod 


divmod()、__pow_ ow()~ __round__ round() 


—radd__»~ __rsub__~ __rmul_» __ rtruediv__~ _ rfloordiv__~ __rmod__»~ __rdivmod_. __ 


J 
* 
E. 
量 


Ji 


_İadd__~ __isub__~ __imul__. __itruediv__~ __ifloordiv__. __imod__. __ipow__ 


ini 


zH 


__invert__ ~» __lshift__ <<. __rshift_ >>, __and__ & or_ 、 xor__ ^ 


__rishift__. __orrshift__. _ rand__y __rxor__y __ror_ 


__iand ixor__、 ior 


__ilshift 


irshift__.y 


A SACHA MRTEBUN ILI, MAWR RIT (b * a 
而 不 是 a * b) 。 增 量 赋值 运算 符 则 是 一 种 把 中 级 运算 符 变 成 赋值 
运算 的 捷径 (a = a * b 就 变 成 了 a *= b) 。 第 13 章 会 对 这 两 
者 作出 详细 解释 。 


1.4 为 什么 len 不 是 普通 方法 


我 在 2013 年 问 核心 开发 者 Raymond Hettinger 这 个 问题 时 ， 他 用 “Python 
之 禅 ” Chttps://www.python.org/doc/humor/#the-zen-of-python) 里 的 原 话 回 
答 了 我 :“ 实 用 胜 于 纯粹 。” 在 1.2 市 里 我 提 到 过 ， 如 果 x 是 一 个 内 置 类 

型 的 实例 ， 那 么 len(x) 的 速度 会 非常 快 。 背 后 的 原因 是 CPython 会 直 

接 从 一 个 C 结构 体 里 读 取 对 象 的 长 上 度 ， 完 全 不 会 调用 任何 方法 。 获 取 一 
个 集合 中 元 素 的 数量 是 一 个 很 常见 的 操作 ， 在 

str. list. memoryview 等 类 型 上 ， 这 个 操作 必须 高 效 。 


PY, len 之 所 以 不 是 一 个 普通 方法 ， 是 为 了 让 Python ii YB 
结构 可 以 走后门 ，abs 也 是 同 理 。 但 是 多 亏 了 它 是 特殊 方法 ， 我 们 也 可 
以 把 len 用 于 目 定 义 数据 类 型 。 这 种 处 理 方 式 在 保持 内 置 类 型 的 效率 和 
保证 语言 的 一 致 性 之 间 找 到 了 一 个 平衡 点 ， 也 印证 了 “Python 之 禅 ”中 的 
另外 一 句 话 :“ 不 能 让 特例 特殊 到 开始 破坏 既定 规则 。” 


` 如 果 把 abs 和 len 都 看 作 一 元 运算 符 的 话 ， 你 也 许 更 能 接受 
它们 一 一 虽然 看 起 来 像 面 癌 对 象 语言 中 的 函数 ， 但 实际 上 又 不 是 函 
数 。 有 一 门 叫 作 ABC 的 语言 是 Python 的 直系 祖先 ， 它 内 置 了 一 个 

# 运算 符 ， 当 你 写 出 #s 的 时 候 ， 它 的 作用 跟 len 一 样 。 如 果 写 成 

x#s 这 样 的 中 级 运算 符 的 话 ， 那 么 它 的 作用 是 计算 s 中 x 出 现 的 次 
数 。 在 Python 里 对 应 的 写法 是 s .count(x)。 注 意 这 里 的 s 是 一 个 
序列 类 型 。 
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通过 实现 特殊 方法 ， 目 定义 数据 类 型 可 以 表现 得 跟 内 置 类 型 一 样 ， 从 而 
让 我 们 写 出 更 具 表 达 力 的 代码 一 一 或 者 说 ， 更 具 Python 风格 的 代码 。 


Python 对 象 的 一 个 基本 要 求 束 是 它 得 有 合理 的 字符 串 表 示 形 式 ， 我 们 可 
以 通过 repr _ 和 __str__ 来 满足 这 个 要 求 。 前 者 方便 我 们 调试 和 
记录 日 志 ， 后 者 则 是 给 终端 用 户 看 的 。 这 束 是 数据 模型 中 存在 特殊 方法 
_repr 和 str WEN. 


对 序列 数据 类 型 的 模拟 是 特殊 方法 用 得 最 多 的 地 方 ， 这 一 点 在 
FrenchDeck 类 的 示例 中 有 所 展现 。 在 第 2 章 中 ， 我 们 会 着 重 介 绍 序列 
数据 类 型 ， 然 后 在 第 10 章 中 ， 我 们 会 把 Vector 类 扩展 成 一 个 多 维 的 
数据 类 型 ， 通 过 这 个 练习 你 将 有 机 会 实现 自 定义 的 序列 。 


Python 通过 运算 符 重 载 这 一 模式 提供 了 丰富 的 数值 类 型 ， 除 了 内 置 的 那 
些 之 外 ， 还 有 decimal.Decimal 和 fractions.Fraction。 这 些 数据 
类 型 都 支持 中 级 算术 运算 符 。 在 第 13 章 中 ， 我 们 还 会 通过 对 Vector 
类 的 扩展 来 学 习 如 何 实现 这 些 运算 符 ， 当 然 还 会 提 到 如 何 让 运算 符 满 足 
交换 律 和 增强 赋值 。 


Python 数据 模型 的 特殊 方法 还 有 很 多 ， 本 书 会 涵盖 其 中 的 绝 大 部 分 ， 探 
讨 如 何 使 用 和 实现 它们 。 


1.6 ”延伸 阅读 
对 本 章 内 容 和 本 书 主 题 来 说 ，Python 语言 参考 手册 里 的 “Data Model 一 


E Ay 人 


= Chttps://docs.python.org/3/reference/datamodel.html) 是 最 符合 规范 的 知 
识 来 源 。 


Alex Martelli 的 《Python 技术 手册 (第 2 版 ，》 对 数据 模型 的 讲解 很 精 
彩 。 我 写 这 本 书 的 时 候 ，《Python 技术 手册 》 的 最 新 版 本 是 2006 年 出 
版 的 ， 书 里 用 的 还 是 Python 2.5， 但 是 Python 关于 数据 模型 的 概念 并 没 
有 太 大 的 变化 ， 而 书 中 Martelli 对 属性 访问 机 制 的 描述 ， 应 该 是 除了 
CPython 中 的 C 源码 之 外 在 这 方面 最 权威 的 解释 。Martelli 还 是 Stack 
Overflow 上 的 高 产 贡 献 者 ， 在 他 名 下 差不多 有 5000 条 答案 ， 你 也 可 以 
去 他 的 Stack Overflow 主页 Chttp://stackoverflow.com/users/95810/alex- 
martelli) 上 看 看 。 


David Beazley 若 有 两 本 基于 Python 3 的 书 ， 其 中 对 数据 模型 进行 了 详尽 
的 介绍 。 一 本 是 《Python 参考 手册 (第 4 版 )》3， 另 一 本 是 与 Brian K. 
Jones 合 著 的 《Python Cookbook (第 3 版 ) 中 文 版 》。 


8 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 ;978-7-115-24259-4。 ”编者 注 


由 Gregor Kiczales, Jim des Rivieres 和 Daniel G. Bobrow 合 著 的 The Art 

of the Metaobject Protocol (XK AMOP, MIT 出 版 社 ，1991 年 ) 一 书 解 
释 了 元 对 象 协 议 Cmetaobject protocol, MOP) 的 概念 ， 而 Python 数据 模 
型 便 是 对 这 一 概念 的 一 种 曾 释 。 


N 


Li% 


发 


数据 模型 还 是 对 象 模型 


Python 文档 里 总 是 用 “Python 数据 模型 ”这 种 说 法 ， 而 大 多 数 作 者 提 
到 这 个 概念 的 时 候 会 说 “Python Xf AREAL”. Alex Martelli 的 《Python 
技术 手册 (第 2 版》 和 David Beazley 的 《Python 参考 手册 (第 4 
版 ) 》 是 这 个 领域 中 最 好 的 两 本 书 ， 但 是 他 们 也 总 说 “Python 对 象 
模型 ”。 维 基 百 科 中 对 象 模 型 的 第 一 个 定义 
(http://en.wikipedia.org/wiki/Object_ model) 是 : 计算 机 编程 语言 中 


对 象 的 属性 。 这 正好 是 “Python 数据 模型 "所要 描述 的 概念 。 我 在 本 

书 中 一 直 都 会 用 “数据 模型 ”这 个 词 ， 首 先是 因为 在 Python 文档 里 对 
这 个 词 有 偏爱 ， 另 外 一 个 原因 是 Python 语言 参考 手册 中 与 这 里 讨论 
的 内 容 最 相关 的 一 重 的 标题 就 是 “数据 模 

AY” Chttps://docs.python.org/3/reference/datamodel.html) 。 


魔术 方法 


在 Ruby 中 也 有 类 似 “ 特 殊 方法 ”的 概念 ， 但 是 Ruby 社区 称 之 为 “ 魔 
术 方 法 ”， 而 实际 上 Python 社区 里 也 有 不 少 人 用 的 是 后 者 。 而 我 恰 
恰 认 为 “特殊 方法 ?是 “魔术 方法 "的 对 立 面 。Python 和 Ruby 都 利用 
了 这 个 概念 来 提供 丰富 的 元 对 象 协议 ， 这 不 是 魔术 ， 而 是 让 语言 的 
用 户 和 核心 开 有 者 拥有 并 使 用 同样 的 工具 。 


考虑 一 下 JavaScript， 情 况 就 正好 反 过 来 了 。JavaScript 中 的 对 象 有 
不 透明 的 魔术 般 的 特性 ， 而 你 无 法 在 自 定 义 的 对 象 中 模拟 这 些 行 
为 。 比 如 在 JavaScript 1.8.5 中 ， 用 户 的 自 定义 对 象 不 能 有 只 读 属 
性 ， 然 而 不 少 JavaScript 的 内 置 对 象 却 可 以 有 。 因 此 在 JavaScript 
中 ， 只 该 属性 是 “魔术 ?" 般 的 存在 ， 对 于 普通 的 JavaScript 用 户 而 
言 ， 它 就 像 超 能 力 一 样 。2009 年 推出 的 ECMAScript 5.1 才 让 用 户 
可 以 定义 只 读 属 性 。JavaScript 中 跟 元 对 象 协议 有 关 的 部 分 一 直 在 
进化 ， 但 由 于 历史 原因 ， 这 方面 它 还 是 赶不上 Python 和 Ruby. 


元 对 象 


The Art of the Metaobject Protocal (AMOP) 是 我 最 喜欢 的 计算 机 图 
书 的 标题 。 客 观 来 说 ， 元 对 象 协议 这 个 词 对 我 们 学 习 Python 数据 模 
型 是 有 帮助 的 。 元 对 象 所 指 的 是 那些 对 建构 语言 本 里 来 讲 很 重要 的 
对 象 ， 以 此 为 前 提 ， 协 议 也 可 以 看 作 接 口 。 也 就 是 说 ， 元 对 象 协 
议 是 对 象 模型 的 同义词 ， 它 们 的 意思 都 是 构建 核心 语言 的 API. 


一 套 丰 富 的 元 对 象 协 议 能 让 我 们 对 语言 进行 扩展 ， 让 它 支持 新 的 编 
程 范 式 。AMOP 的 第 一 作者 Gregor Kiczales 后 来 成 为 面向 方面 编程 
的 先驱 ， 他 写 出 了 一 个 Java 扩展 叫 AspectJ， 用 来 实现 他 对 面 回 方 

面 编程 的 理念 。 其 实在 Python 这 样 的 动态 语言 里 ， 更 容易 实现 面 问 
方面 编程 。 现 在 已 经 有 几 个 Python 框架 在 做 这 件 事 情 了 ， 其 中 最 重 


要 的 是 zope.interface (http://docs.zope.org/zope.interface/) 。 第 


11 章 的 延伸 阅读 里 会 谈 到 它 。 


第 二 部 分 “数据 结构 


第 2 草 序列 构成 的 数组 


你 可 能 注意 到 了 ， 之 前 提 到 的 几 个 操作 可 以 无 过 别 地 应 用 于 文本 、 
~ 表 和 表格 上 。 我 们 把 文本 、 列表 和 表格 叫 作 数 据 火车 这 FOR 命 
通常 能 作用 于 数据 火车 上 。 


Geurts、Meertens 和 Pemberton 
ABC Programmer's Handbook 


Teo Geurts, Lambert Meertens, and Steven Pemberton, ABC Programmer's Handbook, p. 8. 


在 创造 Python LAT, Guido 曾 为 ABC 语言 贡献 过 代码 。ABC 语言 是 一 
个 致力 于 为 初学 者 设计 编程 环境 的 长 达 10 年 的 研究 项 目 ， 其 中 很 多 点 
子 在 现在 看 来 都 很 有 Python 风格 : 序列 的 泛 型 操作 、 内 置 的 元 组 和 映射 
类 型 、 用 缩 进来 架构 的 源码 、 无 需 变 量 声明 的 强 类 型 ， 等 等 。Python 对 
开发 者 如 此 友好 ， 根 源 就 在 这 里 


Python 也 从 ABC 那里 继承 了 用 统一 的 风格 去 处 理 序 列 数据 这 一 特点 。 
不 管 是 哪 种 数据 结构 ， 字 符 串 、 列 表 、 字 节 序 列 、 数 组 、XML 元 素 ， 
换 或 是 数据 库 僵 询 结果 ， 它 们 都 共用 一 套 丰 是 的 操作 : AR WA. HE 
序 ， 还 有 拼接 。 


深入 理解 Python 中 的 不 同 序列 类 型 ， 不 但 能 让 我 们 避免 重新 发 明 轮 子 ， 
它们 的 API 还 能 帮助 我 们 把 自己 定义 的 API 设计 得 跟 原 生 的 序列 一 样 ， 
或 者 是 跟 未 来 可 能 出 现 的 序列 类 型 保持 兼容 。 


本 章 讨论 的 内 容 几 乎 可 以 应 用 到 所 有 的 序列 类 型 上 ， 从 我 们 熟悉 的 
1ist， 到 Python 3 中 特有 的 str 和 bytes。 我 还 会 特别 提 到 跟 列 表 、 
元 组 、 数组 以 及 队列 有 关 的 话题 。 但 是 Unicode 字符 串 和 字 节 序列 这 方 
面 的 内 容 被 放 在 了 第 4 章 。 男 外 这 里 讨论 的 数据 纪 nM Ae Python 中 现成 
可 用 的 ， 如 果 你 想 知道 怎样 创建 自己 的 序列 类 型 ， 那 得 等 到 第 10 章 。 


2.1 内 置 序列 类 型 概览 
Python 标准 库 用 C 实现 了 丰富 的 序列 类 型 ， 列 举 如 下 。 
容器 序列 


list、tuple 和 collections.deque 这 些 序列 能 存放 不 同类 型 的 


数据 
扁平 序列 


str、bytes、bytearray、memoryview 和 array.array， 这 类 
序列 只 能 容纳 一 种 类 型 。 
容 占 序列 存放 的 是 它们 所 包含 的 任意 类 型 的 对 象 的 引用 ， 而 局 平 序列 
里 存放 的 是 值 而 不 是 引用 。 换 句 话 说 ， 局 平 序列 其 实 是 一 段 连续 的 内 存 
空间 。 由 此 可 见 局 平 序列 其 实 更 加 紧凑 ， 但 是 它 里 面 只 能 存放 诸如 字 
符 、 字 节 和 数值 这 种 基础 类 型 。 
序列 类 型 还 能 按照 能 个 被 修改 来 分 类 。 


可 变 序 列 


list, bytearray, array.array, collections.deque 和 
memoryview. 


不 可 变 序列 


tuple, str 和 bytes. 


图 2-1 显示 了 可 变 序 列 (MutableSequence) 和 不 可 变 序列 
(Sequence) 的 差异 ， 同 时 也 能 看 出 前 者 从 后 者 那里 继承 了 一 些 方 
法 。 虽 然 内 置 的 序列 类 型 并 不 是 直接 从 Sequence 和 
MutableSequence 这 两 个 抽象 基 类 (Abstract Base Class, ABC) 继承 
而 来 的 ， 人 
含 了 哪些 功能 。 


MutableSequence 
— setitem 
__delitem_ 


—getitem _ insert 


lterable — contains _ append 


iter 
__reversed__ 
index 


O 
count RBR 
remove 


_ ladd _ 


图 2-1: 这 个 UML 类 图 列举 了 collections.abc 中 的 几 个 类 ( 超 类 
在 左边 ， 篆 头 从 子 类 指向 超 类 ， 和 斜体 名 称 代表 抽象 类 和 抽象 方法 ) 


通过 记 住 这 些 类 的 共有 特性 ， 把 可 变 与 不 可 变 序列 或 是 容 絮 与 局 平 序列 
的 概念 融会 员 通 ， 在 探索 并 学 习 新 的 序列 类 型 时 ， 你 会 更 加 得 心 应 手 。 


最 重要 也 最 基础 的 序列 类 型 应 该 就 是 列表 (ist) Jo list 是 一 个 可 
变 序列 ， 并 且 能 同时 存放 不 同类 型 的 元 素 。 作 为 这 本 书 的 读者 ， 我 想 你 
应 该 对 它 很 了 解 了 ， 因 此 让 我 们 直接 开始 讨论 列表 推导 (list 

comprehension) 吧 。 列 表 推 导 是 一 种 构建 列表 的 方法 ， 它 异常 强大 ， 人 然 
而 由 于 相关 的 句法 比较 星 汲 ， 人 们 往往 不 愿意 去 用 它 。 掌 握 列 表 推 导 还 
可 以 为 我 们 打开 生成 器 表达 式 (generator expression) 的 大 门 ， 后 者 具有 
生成 各 种 类 型 的 元 素 并 用 它们 来 填充 序列 的 功能 。 下 一 节 束 来 看 看 这 两 


个 概念 。 


reverse 
extend 


2.2 ”列表 推导 和 生成 器 表达 式 
列表 推导 是 构建 列表 (1ist) 的 快捷 方式 ， 而 生成 器 表达 式 则 可 以 用 来 
创建 其 他 任何 类 型 的 序列 。 如 果 你 的 代码 里 并 不 经 和 常 使 用 它们 ， 那 么 很 
可 能 你 错过 了 许多 写 出 可 读 性 更 好 且 更 高 效 的 代码 的 机 会 。 

BAR RY RY ERRE PA EAS EIN, MaE Rae, RSE 
就 能 说 服 你 。 


A 很 多 Python 程序 员 都 把 列表 推导 (ist comprehension) 简称 为 
listcomps， 生 成 式 表 达 器 (generator expression) 则 称 为 genexps。 
我 有 时 也 会 这 么 用 。 


2.2.1 列表 推导 和 可 读 性 


oo 你 觉得 示例 2-1 和 示例 2-2 中 的 代码 ， 哪 个 更 容易 读 
懂 ? 


示例 2-1 把 一 个 字符 串 变 成 Unicode 码 位 的 列表 


>>> symbols = '$¢f¥En' 
>>> codes = [] 


>>> for symbol in symbols: 
codes.append(ord(symbol1) ) 

>>> codes 

[36, 162, 163, 165, 8364, 164] 


示例 2-2 ”把 字符 串 变 成 Unicode 码 位 的 另外 一 种 写法 


>>> symbols = '$¢f¥En' 
>>> codes = [ord(symbol) for symbol in symbols] 


>>> codes 
[36, 162, 163, 165, 8364, 164] 


里 说 任何 学 过 一 点 Python W ADM 12 aR eA TED Bl 2-1， 但 是 我 党 得 如 果 


学 会 了 列表 推导 的 话 ， 示 例 2-2 读 起 来 更 方便 ， 因 为 这 段 代 码 的 功能 从 
字面 上 就 能 轻松 地 看 出 来 。 


for 循环 可 以 胜任 很 多 任务 : 过 历 一 个 序列 以 求 得 总 数 或 挑 出 东 个 特定 
的 元 素 、 用 来 计算 总 和 或 是 平均 数 ， 还 有 其 他 任何 你 想 做 的 事情 。 在 示 
例 2-1 的 代码 里 ， 它 被 用 来 新 建 一 个 列表 。 


男 一 方面 ， 列 表 推 导 也 可 能 被 滥用 。 以 前 看 到 过 有 的 Python 代码 用 列表 
推导 来 重复 获取 一 个 函数 的 副作用 。 通 常 的 原则 是 ， 只 用 列表 推导 来 创 
建新 的 列表 ， 并 且 尽 量 保 持 简 短 。 如 果 列 表 推 导 的 代码 超过 了 两 行 ， 你 
可 能 就 要 考虑 是 不 是 得 用 for 循环 重 写 了 。 就 跟 写 文章 一 样 ， 并 没有 什 
么 人 硬性 的 规则 ， 这 个 度 得 你 自己 把 握 。 


% 句法 提示 


Python 会 忽略 代码 里 []、{} 和 () 中 的 换行 ， 因 此 如 果 你 的 代码 里 
有 多 行 的 列表 、 列 表 推 导 、 生 成 器 表达 了 式 、 字 典 这 一 类 的 ， 可 以 省 
略 不 太 好 看 的 续 行 符 \。 


列表 推导 不 会 再 有 变量 泄漏 的 问题 


Python 2.x 中 ， 在 列表 推导 中 for 关键 词 之 后 的 赋值 操作 可 能 会 影 
中 列表 推导 上 下 文中 的 同名 变量 。 像 下 面 这 个 Python 2.7 控制 台 对 
Ta: 


Python 2.7.6 (default, Mar 22 2014, 22:59:38) 
[GCC 4.8.2] on linux2 


Type "help", "copyright", "credits" or "license" for more information. 


>>> x = ‘my precious’ 

>>> dummy = [x for x in 'ABC'] 
>>> X 

c! 


如 你 所 见 ，x 原本 的 值 被 取代 了 ， 但 是 这 种 情况 在 Python 3 中 是 不 
会 出 现 的 。 


列表 推导 、 生 成 器 表达 式 ， 以 及 同 它 们 很 相似 的 集合 〈set) 推导 
和 字典 (dict) 推导 ， 在 Python 3 中 都 有 了 自己 的 局 部 作用 域 ， 就 
像 函 数 似 的 。 表 达 式 内 部 的 变量 和 赋值 只 在 局 部 起 作用 ， 表 达 式 的 
人 
门 。 


这 是 Python 3 代码 : 


>>> x = 'ABC' 
>>> dummy = [ord(x) for x in x] 


>>> dummy @ 
[65, 66, 67] 
>>> 


O x 的 值 被 保留 了 。 
O 列表 推导 也 创建 了 正确 的 列表 。 
列表 推导 可 以 帮助 我 们 把 一 个 序列 或 是 其 他 可 友 代 类 型 中 的 元 素 过 涯 或 


是 加 工 ， 然 后 再 新 建 一 个 列表 。Python 内 置 的 filter 和 map 函数 组 合 
起 来 也 能 达到 这 一 效果 ， 但 是 可 读 性 上 打 了 不 小 的 折扣 。 


2.2.2 ”列表 推导 同 filter 和 map 的 比较 


filter 和 map 合 起 来 能 做 的 事情 ， 列 表 推 导 也 可 以 做 ， 而 且 还 不 需要 
借助 难以 理解 和 阅读 的 Lambda 表达 式 。 详 见 示例 2-3。 


示例 2-3 用 列表 推导 和 map/filter 组 合 来 创建 同样 的 表单 


>>> symbols = '$¢f¥En' 

>>> beyond_ascii = [ord(s) for s in symbols if ord(s) > 127] 
>>> beyond_ascii 

[162, 163, 165, 8364, 164] 


>>> beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols))) 
>>> beyond_ascii 
[162, 163, 165, 8364, 164] 


我 原 以 为 map/filter 组 合 起 来 用 要 比 列表 推导 快 一 些 ，Alex Martelli 
却说 不 一 定 至 少 在 上 面 这 个 例子 中 不 一 定 。 在 本 书 的 代码 仓库 

(https://github.com/fluentpython/example-code) 中 有 名 为 02-array- 
seq/listcomp speed.py Chttps://github.com/fluentpython/example- 
code/blob/master/02-array-seq/listcomp speed.py) 的 脚本 ， 代 码 中 有 这 两 
个 方法 的 效率 的 比较 。 


第 5 章 会 更 详细 地 讨论 map 和 filter。 下 面 就 来 看 看 如 何 用 列表 推导 
来 计算 笛 卡 儿 积 : 两 个 或 以 上 的 列表 中 的 元 素 对 构成 元 组 ， 这 些 元 组 构 
成 的 列表 就 是 笛 卡 儿 积 。 


2.2.3 FJL 


WRITE, HIRES AERAR A ERa ERKE EB LR. 
FAR LAR DIR, JRE KIR E H HA AY BS CSSA IRATA 
o 因此 第 卡 儿 积 列 表 的 长 度 等 于 输入 变量 的 长 度 的 乘积 ， 如 网 
2-2 所 不 。 


S 
a, Ta a + | 
[A, [As , AO , Ao, Ae. 
R K, Ke , KO , KO, KA, 
Q] Qe, QG, Qo, Qs] 
RxS 


Al 2-2: 含有 4 种 花色 和 3 种 牌 面 的 列表 的 笛 卡 儿 积 ， 结 果 是 一 个 包 
含 12 个 元 系 的 列表 


如 果 你 需要 一 个 列表 ， 列 表 里 是 3 种 不 同 尺寸 的 TT 恤衫 ， 每 个 尺寸 都 有 


2 个 颜色 ， 示 例 2-4 用 列表 推导 算出 了 这 个 列表 ， 列 表 里 有 6 种 组 合 。 
示例 2-4 使 用 列表 推导 计算 笛 卡 儿 积 


>>> colors = ['black', 'white'] 
>>> sizes = ['S', 'M', 'L'] 
>>> tshirts [(color, size) for color in colors for size in sizes] @ 
>>> tshirts 
[('black', 'S'), (‘black', 'M'), (‘'black', 'L'), (‘white', 'S'), 
('white', 'M'), ('white', 'L')] 
>>> for color in colors: @ 
for size in sizes: 
print((color, size)) 


('black' 


('black' 

('black' 

('white' 

('white' 

('white' 

>>> tshirts = [(color, size) for size in sizes © 
see’ for color in colors] 
>>> tshirts 
[('black', 'S'), ('white', 'S'), (‘'black', 'M'), (‘white', 'M'), 
(‘black', 'L'), (‘white', 'L')] 


O 这 里 得 到 的 结果 是 先 以 颜色 排列 ， 再 以 尺码 排列 。 


@ 注意 ， 这 里 两 个 循环 的 租 套 关系 和 上 面 列表 推导 中 for 从 句 的 先后 
顺序 一 样 。 


O 如 果 想 依照 先 尺 码 后 颜色 的 顺序 来 排列 ， 只 需要 调整 从 句 的 顺序 。 
我 在 这 里 插入 了 一 个 换行 符 ， 这 样 顺 序 安 排 就 更 明显 了 。 


在 第 1 章 的 示例 1-1 中 ， 有 下 面 这 样 一 段 程 序 ， 它 的 作用 是 生成 一 个 按 
花色 分 组 的 52 张 牌 的 列表 ， 其 中 每 个 花色 各 有 13 张 不 同 点 数 的 牌 。 


self. cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


列表 推导 的 作用 只 有 一 个 :， 生成 列表 。 如 果 想 生成 其 他 类 型 的 序列 ， 生 


成 器 表达 式 就 派 上 了 用 场 。 下 一 节 就 是 对 生成 器 表达 式 的 一 个 简单 介 
绍 ， 其 中 可 以 看 到 如 何 用 它 生 成 列表 以 外 的 序列 类 型 。 

2.2.4 生成 器 表达 式 

虽然 也 可 以 用 列表 推导 来 初始 化 元 组 、 数 组 或 其 他 序列 类 型 ， 但 是 生成 
器 表达 式 是 更 好 的 选择 。 这 是 因为 生成 器 表达 式 背 后 遵守 了 迭代 器 协 
议 ， 可 以 逐个 地 产 出 元 素 ， 而 不 是 先 建立 一 个 完整 的 列表 ， 然 后 再 把 这 
个 列表 传递 到 某 个 构造 函数 里 。 前 面 那 种 方式 显然 能 够 节省 内 存 。 


生成 器 表达 陈 的 语法 跟 列 表 推 导 兰 不 多 ， 只 不 过 把 方 括号 换 成 圆 括号 而 
B 


示例 2-5 展示 了 如 何 用 生成 器 表达 式 建立 元 组 和 数组 。 
示例 2-$ 用 生成 器 表达 式 初始 化 元 组 和 数组 


>>> symbols = '$¢f¥En' 
>>> tuple(ord(symbol) for symbol in symbols) @ 
(36, 162, 163, 165, 8364, 164) 


>>> import array 
>>> array.array('I', (ord(symbol) for symbol in symbols)) @ 
array('I', [36, 162, 163, 165, 8364, 164]) 


@ 如 果 生 成 费 表 达 式 是 一 个 函数 调用 过 程 中 的 唯一 参数 ， 那 么 不 需要 
额外 再 用 括 与 把 它 围 起 来 。 


O array 的 构造 方法 需要 两 个 参数 ， 因 此 括号 是 必需 的 。array 构造 
方法 的 第 一 个 参数 指定 了 数组 中 数字 的 存储 方式 。2.9.1 市 中 有 更 多 大 
于 数组 的 详细 讨论 。 


示例 2-6 则 是 利用 生成 器 表达 陈 实 现 了 一 个 香 卡 儿 积 ， 用 以 打印 出 上 文 
中 我 们 提 到 过 的 工 恤衫 的 2 种 颜色 和 3 种 尺码 的 所 有 组 合 。 与 示例 2-4 
不 同 的 是 ， 用 到 生成 器 表达 式 之 后 ， 内 存 里 不 会 留 下 一 个 有 6 个 组 合 的 
列表 ， 因 为 生成 器 表达 式 会 在 每 次 for 循环 运行 时 才 生 成 一 个 组 合 。 如 
条 要 计算 两 个 各 有 1000 个 元 和 聚 的 列表 的 俏 卡 儿 积 ， 生 成 器 表达 式 就 可 
以 帮忙 省 掉 运 行 for 循环 的 开销 ， 即 一 个 含有 100 万 个 元 素 的 列表 。 


示例 2-6 (EAI AE ae PIA TUTTE AB J LAR 


>>> colors = ['black', 'white'] 

>>> sizes = ['S', 'M', 'L'] 

>>> for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes): @ 
print(tshirt) 


black S 
black M 
black L 
white S 
white M 
white L 


O 生成 器 表达 式 逐 个 产 出 元 素 ， 从 来 不 会 一 次 性 产 出 一 个 含有 6 个 工 
恤 样 式 的 列表 。 


第 14 章 会 专门 讲 到 生成 器 的 工作 原理 。 这 里 只 是 简单 看 看 如 何 用 生成 
铝 来 初始 化 除 列表 之 外 的 序列 ， 以 及 如 何 用 它 来 避免 额外 的 内 存 占用 。 


接 下 来 看 看 Python 中 的 为 外 一 个 很 重要 的 序列 类 型 : 元 组 (tuple) 。 


2.3 ”元 组 不 仅仅 是 不 可 变 的 列表 


有 些 Python 入 门 教程 把 元 组 称 为 “不 可 变 列表 ”， 然 而 这 并 没有 完全 概括 
元 组 的 特点 。 除 了 用 作 不 可 变 的 列表 ， 它 还 可 以 用 于 没有 字段 名 的 记 
录 。 鉴 于 后 者 第 第 被 忽略 ， 我 们 先 来 看 看 元 组 作为 记录 的 功用 。 


2.3.1 元 组 和 记录 


元 组 其 实 是 对 数据 的 记录 : 元 组 中 的 每 个 元 素 都 存放 了 记录 中 一 个 字段 
的 数据 ， 外 加 这 个 字段 的 位 置 。 正 是 这 个 位 置信 息 给 数据 赋予 了 意义 。 


如 果 只 把 元 组 理解 为 不 可 变 的 列表 ， 那 其 他 信息 一 一 它 所 含有 的 元 素 的 
忆 数 和 它们 的 位 置 一 一 似乎 束 变 得 可 有 可 无 。 但 是 如 果 把 元 组 当 作 一 些 
字段 的 集合 ， 那 么 数量 和 位 置信 息 就 变 得 非常 重要 了 。 

示例 2-7 中 的 元 组 就 被 当 作 记 录 加 以 利用 。 如 果 在 任何 的 表达 式 里 我 们 
在 元 组 内 对 元 系 排 序 ， 这 些 元 素 所 携带 的 信息 束 会 丢失 ， 因 为 这 些 信息 
古 跟 它们 的 位 置 有 关 的 。 


示例 2-7 把 元 组 用 作 记 录 


>>> lax_coordinates = (33.9425, -118.498056) @ 
>>> city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014) @ 
>>> traveler ids = [('USA', '31195855'), ('BRA', 'CE342567'), © 
('ESP', 'XDA2@5856')] 
>>> for passport in sorted(traveler_ids): @ 
print('%s/%s' % passport) © 


BRA/CE342567 


ESP/XDA2@5856 

USA/31195855 

>>> for country, _ in traveler_ids: © 
print(country) 


和 四 洛杉矶 国际 机 场 的 经 纬度 。 


O 东京 市 的 一 些 信息 : 市 名 、 年 份 、 人 口 (单位 : AAD 、 人 口 变化 
CHM: 百分比) 和 面积 (单位 : 平方 干 米 ) 。 


O 一 个 元 组 列表 ， 元 组 的 形式 为 (country_code, 


passport_number). 
O 在 迭代 的 过 程 中 ，passport 变量 被 绑 定 到 每 个 元 组 上 。 
O % 格式 运算 符 能 被 匹配 到 对 应 的 元 组 元 素 上 。 


O for 循环 可 以 分 别提 取 元 组 里 的 元 素 ， 也 叫 作 拆 包 Cunpacking) 。 
为 元 组 中 第 二 个 元 素 对 我 们 没有 什么 用 ， 所 以 它 赋 值 给 “” 占 位 符 。 


拆 包 让 元 组 可 以 完美 地 被 当 作 记录 来 使 用 ， 这 也 是 下 一 节 的 话题 。 
2.3.2 ”元 组 拆 包 


示例 2-7 中 ， 我 们 把 元 组 ('Tokyo' ，2663，32458，6.66，8614) 里 
的 元 素 分 别 赋值 给 变量 city, year, pop, chg 和 area， 而 这 所 有 的 
赋值 我 们 只 用 一 行 声明 就 写 完了 。 同 样 ， 在 后 面 一 行 中 ， 一 个 % 运算 符 
就 把 passport 元 组 里 的 元 素 对 应 到 了 print 函数 的 格式 字符 串 空 档 
中 。 这 两 个 都 是 对 元 组 拆 包 的 应 用 。 


~ TAHEA AMH BE Aa ERIRE, PRE — FY TE Efe 
是 ， 被 可 和 迭代 对 象 中 的 元 素数 量 必 须要 跟 接受 这 些 元 素 的 元 组 的 空 
档 数 一 致 。 除 非 我 们 用 *# 来 表示 忽略 多 余 的 元 素 ， 在 “用 * 来 处 理 
多 余 的 元 素 ” 一 节 里 ， 我 会 讲 到 它 的 具体 用 法 。Python 爱好 者 们 很 
喜欢 用 元 组 拆 包 这 个 说 法 ， 但 是 可 迭代 元 素 拆 包 这 个 表达 也 慢 慢 
流行 了 起 来 ， 比 如 “PEP 3132—Extended Iterable 

Unpacking” (https://www.python.org/dev/peps/pep-3132/) 的 标题 就 
是 这 么 用 的 。 


最 好 辨认 的 元 组 拆 包 形式 就 是 平行 赋值 ， 也 就 是 说 把 一 个 可 友 代 对 象 里 
的 元 素 ， 一 并 赋值 到 由 对 应 的 变量 组 成 的 元 组 中 。 就 像 下 面 这 段 代 码 : 


>>> lax_coordinates = (33.9425, -118.408056) 
>>> latitude, longitude = lax_coordinates # 元 组 拆 包 
>>> latitude 


33.9425 
>>> longitude 
-118 . 408056 


为 外 一 个 很 优雅 的 写法 当 属 不 使 用 中 间 变 量 交 换 两 个 变量 的 值 : 


>>> b, a = a, b 


还 可 以 用 * 运算 符 把 一 个 可 迭代 对 象 拆 开 作 为 函数 的 参数 : 


>>> divmod(2@, 8) 

(2, 

>>> 

>>> divmod(*t) 

(2, 4) 

>>> quotient, remainder = divmod(*t) 
>>> quotient, remainder 

(2, 4) 


下 面 是 男 一 个 例子 ， 这 里 元 组 拆 包 的 用 法 则 是 让 一 个 函数 可 以 用 元 组 的 
形式 返回 多 个 值 ， 然 后 调用 函数 的 代码 就 能 轻松 地 接受 这 些 返 回 值 。 比 
如 os.path.split() 函数 就 会 返回 以 路 径 和 最 后 一 个 文件 名 组 成 的 元 
组 (path, last_part): 


>>> import os 
>>> _, filename = os.path.split('/home/luciano/.ssh/idrsa.pub' ) 


>>> filename 
“idrsa.pub' 


在 进行 拆 包 的 时 候 ， 我 们 不 总 是 对 元 组 里 所 有 的 数据 都 感 兴 趣 ，_ 占 位 
符 能 帮助 处 理 这 种 情况 ， 上 面 这 段 代码 也 展示 了 它 的 用 法 。 


Be 如 果 做 的 是 国际 化 软件 ， 那 么 _ 可 能 就 不 是 一 个 理想 的 占 位 
符 ， 因 为 它 也 是 gettext.gettext 函数 的 常用 别名 ，gettext 模 
块 的 文档 (https://docs.python.org/3/library/gettext.html〉 里 提 到 了 这 
一 点 。 在 其 他 情况 下 ，_ 会 是 一 个 很 好 的 占 位 符 。 


除 此 之 外 ， 在 元 组 拆 包 中 使 用 * 也 可 以 帮助 我 们 把 注意 力 集中 在 元 组 的 
部 分 元 系 上 。 


用 * 来 处 理 镜 下 的 元 素 


EE ee ee ee ee res 
法 本 


于 是 Python 3 里 ， 这 个 概念 被 扩展 到 了 平行 赋值 中 : 


>>> a, b, *rest = range(5) 
>>> a, b, rest 

(0, 1, [2, 3, 4]) 

>>> a, b, *rest = range(3) 
>>> a, b, rest 


(®@, 1, [2]) 
>>> a, b, *rest = range(2) 
>>> a, b, rest 


(ə, 1, []) 


在 平行 赋值 中 ，* 前 组 只 能 用 在 一 个 变量 名 前 面 ， 但 是 这 个 变量 可 以 出 
现在 赋值 表达 式 的 任意 位 置 : 


>>> a, *body, c, d = range(5) 


>>> a, body, c, d 
(@, [1, 2], 3, 4) 


>>> *head, b, c, d = range(5) 
>>> head, b, c, d 
([@, 1], 2, 3, 4) 


FSP TCAD IEA TRAM ABE, Al ait ze AY VAD AA AER BHP o 


2.3.3 RENAME 

接受 表达 式 的 元 组 可 以 是 谋 套 式 的 ， 例 如 (a，b，(c，d))。 只 要 这 个 
接受 元 组 的 谋 套 结构 符合 表达 式 本 身 的 谋 套 结构 ，Python 就 可 以 作出 正 
确 的 对 应 。 示 例 2-8 就 是 对 嵌 套 元 组 拆 包 的 应 用 。 


示例 2-8 用 网 套 元 组 来 获取 经 度 


metro_areas = [ 
('Tokyo', 'JP', 36.933, (35.689722,139.691667)), # © 
(‘Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
(‘Mexico City’, 'MX', 20.142, (19.433333, -99.133333)), 
(‘New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
(‘Sao Paulo’, 'BR', 19.649, (-23.547778, -46.635833)), 


] 


print('{:15} | {:49} | {:49}'.format('', ‘lat.', 'long.')) 
fmt = '{:15} | {:9.4f} | {:9.4F}' 
for name, cc, pop, (latitude, longitude) in metro_areas: # @ 
if longitude <= 0: # © 
print(fmt.format(name, latitude, longitude) ) 


@ 每 个 元 组 内 有 4 个 元 素 ， 其 中 最 后 一 个 元 素 是 一 对 坐标 。 


O 我 们 把 输入 元 组 的 最 后 一 个 元 素 拆 包 到 由 变量 构成 的 元 组 里 ， 这 样 
就 获取 了 坐标 。 


© if longitude <= 0: 这 个 条 件 判断 把 输出 限制 在 西半球 的 城市 。 
示例 2-8 的 输出 是 这 样 的 : 


| lat. | long. 
Mexico City | 19.4333 | -99.1333 
New York-Newark | 40.8086 | -74.0204 
| -23.5478 | -46.6358 


Sao Paul 


Ba 在 Python 3 之 前 ， 元 组 可 以 作为 形 参 放 在 函数 声明 中 ， 例 如 
def fn(a，(b，c)，d):。 然 而 Python3 不 再 支持 这 种 格式 ， 具 
体 原因 见于 “PEP 3113—Removal of Tuple Parameter 

Unpacking” Chttp://python.org/dev/peps/pep-3113/) 。 需 要 和 弄 清楚 的 
下 J 者 并 没有 影响 ， 它 改变 的 是 某 些 函数 的 声 
明 方 式 。 


元 组 已 经 设计 得 很 好 用 了 ， 但 作为 记录 来 用 的 话 ， 还 是 少 了 一 个 功能 : 
我 们 时 常会 需要 给 记录 中 的 字段 命名 。namedtuple 函数 的 出 现 帮 我 们 
解决 了 这 个 问题 。 


2.3.4 ”具名 元 组 


collections .namedtuple 是 一 个 工厂 函数 ， 它 可 以 用 来 构建 一 个 带 
para 的 元 组 和 一 个 有 名 字 的 类 一 一 这 个 带 名 字 的 类 对 调试 程序 有 很 大 
FB) 


AI 用 namedtuple 构建 的 类 的 实例 所 消耗 的 内 存 跟 元 组 是 一 样 
的 ， 因 为 字段 名 都 被 存在 对 应 的 类 里 面 。 这 个 实例 跟 普 通 的 对 象 实 
例 比 起 来 也 要 小 一 些 ， 因 为 Python 不 会 用 _ dict _ 来 存放 这 些 实 
例 的 属性 。 


在 第 1 章 的 示例 1-1 中 是 这 样 新 建 Card 类 的 : 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


示例 2-9 展示 了 如 何 用 具名 元 组 来 记录 一 个 城市 的 信息 。 
示例 2-9 定义 和 使 用 具名 元 组 


>>> from collections import namedtuple 

>>> City = namedtuple('City', ‘name country population coordinates') © 
>>> tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667)) @ 

>>> tokyo 

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 
139.691667) ) 


>>> tokyo.population © 
36.933 

>>> tokyo.coordinates 
(35.689722, 139.691667) 
>>> tokyo[1] 

‘5p: 


@ 创建 一 个 具名 元 组 需要 两 个 参数 ， 一 个 是 类 名 ， 男 一 个 是 类 的 各 个 
字段 的 名 字 。 后 者 可 以 是 由 数 个 字符 串 组 成 的 可 友 代 对 象 ， 或 者 是 由 空 
格 分 隔 开 的 字段 名 组 成 的 字符 串 。 


O 存放 在 对 应 字段 里 的 数据 要 以 一 串 参 数 的 形式 传 入 到 构造 函数 中 
注意 ， 元 组 的 构造 函数 却 只 接受 单一 的 可 迭代 对 象 ) 。 


O 你 可 以 通过 字段 名 或 者 位 置 来 获取 一 个 字段 的 信息 。 

除了 从 普通 元 组 那里 继承 来 的 属性 之 外 ， 有 具名 元 组 还 有 一 些 自己 专 有 的 
属性 。 示 例 2-10 中 就 展示 了 几 个 最 有 用 的 : _fields 类 属性 、 类 方法 
_make(iterable) 和 实例 方法 _asdict()。 


示例 2-10 具名 元 组 的 属性 和 方法 (接续 前 一 个 示例 ) 


>>> City. fields © 

('name', 'country', 'population', 'coordinates') 

>>> LatLong = namedtuple('LatLong', 'lat long') 

>>> delhi data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889) ) 
>>> delhi = City._make(delhi_data) @ 

>>> delhi._asdict() © 

OrderedDict([('name', ‘Delhi NCR'), ('country', 'IN'), ('population', 
21.935), (‘coordinates', LatLong(lat=28.613889, long=77.208889) ) ]) 


>>> for key, value in delhi. _asdict().items(): 
print(key + ':', value) 


name: Delhi NCR 

country: IN 

population: 21.935 

coordinates: LatLong(lat=28.613889, long=77.208889) 
>>> 


@ fields 属性 是 一 个 包含 这 个 类 所 有 字段 名 称 的 元 组 。 


© H _make() 通过 接受 一 个 可 迭代 对 象 来 生成 这 个 类 的 一 个 实例 ， 写 
的 作用 跟 City(*delhi_data) 是 一 样 的 。 


® asdict() 把 具名 元 组 以 collections.OrderedDict 的 形式 返 
回 ， 我 们 可 以 利用 它 来 把 元 组 里 的 信息 友好 地 呈现 出 来 。 


现在 我 们 知道 了 ， 元 组 是 一 种 很 强大 的 可 以 当 作 记录 来 用 的 数据 类 型 。 
和 
功能 。 

2.3.5 ”作为 不 可 变 列表 的 元 组 

如 果 要 把 元 组 当 作 列表 来 用 的 话 ， 最 好 先 了 解 一 下 它们 的 相似 度 如 何 。 


在 表 2-1 中 可 以 清楚 地 看 到 ， 除 了 跟 增 减 元 素 相关 的 方法 之 外 ， 元 组 文 
持 列表 的 其 他 所 有 方法 。 还 有 一 个 例外 ， 元 组 没有 __reversed_ 方 
法 ， 但 是 这 个 方法 只 是 个 优化 而 已 ，reversed(my_tuple) 这 个 用 法 在 
KA reversed 的 情况 下 也 是 合法 的 。 


表 2-1: 列表 或 元 组 的 方法 和 属性 (那些 由 object 类 支持 的 方法 没有 
列 出 来 ) 


列 | 元 
K | 组 


s.append(e) 在 尾部 添加 一 个 新 元 素 


canal Fee 


出 现 的 次 数 


ic 
cof fone 
ee Hp 
rr 


s.__getnewargs__() 。 | 在 pickle 中 文 持 更 加 优化 的 序列 化 


stony | fe 在 s 中 找到 元 素 e 第 一 次 出 现 的 位 置 
ames 0 || EME p 之 前 插入 元 素 e 
ze 
mo Hh 
pom fb | *n, ns 的 重复 拼接 

al s *= n， 就 地 重复 拼接 


删除 最 后 或 者 是 〈 可 选 的 ) 位 于 p 的 元 素 ， 
s.pop([p]) 

的 值 
emmy |e] a 
me p 就 地 把 s KREIFI 


__setitem__ s[p] =e, JEA e 放 在 位 置 p， 蔡 代 已 经 在 那个 位 置 
的 元 素 


s.sort([key], 就 地 对 s 中 的 元 素 进行 排序 ， 可 选 的 参数 有 键 〈key ) 
[reverse]) 和 是 否 倒序 (reverse) 


* 反 向 运算 符 在 第 13 章 中 介绍 。 


每 个 Python 程序 员 都 知道 序列 可 以 用 s[a:b] 的 形式 切片 ， 但 是 关于 切 
片 ， 我 还 想 说 说 它 的 一 些 不 太 为 人 所 知 的 方面 。 


2.4 WR 


在 Python 里 ， 像 列表 (list) 、 元 组 (tuple) MEE (str) 这 类 
J 但 是 实际 上 切片 操作 比 人 们 所 想象 的 要 强大 
很 多 。 


这 一 市 主要 讨论 的 是 这 些 高 级 切片 形式 的 用 法 ， 它 们 的 实现 方法 则 会 在 
第 10 章 的 一 个 自 定 义 类 里 提 到 。 这 么 做 主要 是 为 了 符合 这 本 书 的 哲 
学 : 先 讲 用 法 ， 第 四 部 分 中 再 来 讲 如 何 创 建新 类 。 


2.4.1 为 什么 切片 和 区 间 会 忽略 最 后 一 个 元 素 


在 切片 和 区 间 操 作 里 不 包含 区 间 范 围 的 最 后 一 个 元 系 是 Python 的 风格 ， 
这 个 习惯 符合 Python、C 和 其 他 语言 里 以 0 作为 起 始 下 标的 传统 。 这 样 
做 带 来 的 好 处 如 下 。 


。 当 只 有 最 后 一 个 位 置信 息 时 ， 我 们 也 可 以 快速 看 出 切片 和 区 间 里 有 
几 个 元 素 : range(3) #ll my_list[:3] 都 返回 3 个 元 素 。 


o 当 起 止 位 置信 息 都 可 见 时 ， 我 们 可 以 快速 计算 出 切片 和 区 间 的 长 
度 ， 用 后 一 个 数 减 去 第 一 个 下 标 (stop - start) 即 可 。 


。 这 样 做 也 让 我 们 可 以 利用 任意 一 个 下 标 来 把 序列 分 割 成 不 重 铬 的 两 
部 分 ， 只 要 写成 my_list[:x] 和 my_list[x:] 就 可 以 了 ， 如 下 所 
TR 


>>> 1 = [10, 20, 30, 40, 50, 60] 
>>> 1[:2] # 在 下 标 2 的 地 方 分 害 
[10, 20] 

>>> 1[2:] 

[30, 40, 50, 60] 


>>> 1[:3] # 在 下 标 3 的 地 方 分 害 
[10, 20, 30] 

>>> 1[3:] 

[40, 50, 60] 


计算 机 科学 家 Edsger W. Dijkstar 对 这 一 风格 的 解释 应 该 是 最 好 的 ， 详 


见 “ 延 伸 阅 读 ” 中 给 出 的 最 后 一 个 参考 资料 。 

接 下 来 进一步 看 看 Python 解释 器 是 如 何 理解 切片 操作 的 。 

2.4.2 ”对 对 象 进行 切片 

一 个 众所周知 的 秘密 是 ， 我 们 还 可 以 用 s[a:b:c] 的 形式 对 s 在 a 和 b 


之 间 以 c 为 间 隅 取 值 。c 的 值 还 可 以 为 负 ， 负 值 意 味 着 反 辐 取 值 。 下 面 
AY 3 Bl Bee: 


>>> s = 'bicycle' 


另 一 个 例子 是 在 第 1 章 中 用 deck[12::13] 的 形式 在 未 洗 过 的 牌 里 把 每 
种 花色 的 A 拿 出 来 : 


>>> deck[12::13] 
[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 


Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 


a:b:c 这 种 用 法 只 能 作为 索引 或 者 下 标 用 在 [] 中 来 返回 一 个 切片 对 
象 : slice(a，b，c)。 在 10.4.1 节 中 会 讲 到 ， 对 
seq[start:stop:step] 进行 求 值 的 时 候 ，Python 会 调用 

seq. getitem (slice(start，stop，step))。 就 算 你 还 不 会 自 
定义 序列 类 型 ， 了 解 一 下 切片 对 象 也 是 有 好 处 的 。 例 如 你 可 以 给 切片 命 
名 ， 束 像 电 子 表 格 软件 里 给 单元 格 区 域 取 名 字 一 样 。 


比如 ， 要 解析 示例 2-11 中 所 示 的 纯 文 本 文件 ， 这 时 使 用 有 名 字 的 切片 
人 注意 示例 里 的 for 循环 的 可 读 性 有 
强 。 
示例 2-11 纯 文本 文件 形式 的 收据 以 一 行 了 字符 串 的 形式 被 解析 


>>> invoice = """ 


. 1999 Pimoroni PiBrella $17.50 


i 3 $52.50 
.. 1489 6mm Tactile Switch x20 $4.95 2 $9.90 
... 1510 Panavise Jr. - PV-201 $28.00 1 $28.00 
. 1601 PiTFT Mini Kit 320x240 $34.95 1 $34.95 


>>> SKU = slice(@, 6) 
>>> DESCRIPTION = slice(6, 40) 
>>> UNIT PRICE = slice(4@, 52) 
>>> QUANTITY = slice(52, 55) 
>>> ITEM_TOTAL = slice(55, None) 
>>> line_items = invoice.split('\n')[2:] 
>>> for item in line_items: 
print(item[UNIT PRICE], item[DESCRIPTION]) 


$17.50 Pimoroni PiBrella 
$4.95 6mm Tactile Switch x20 
$28.00 Panavise Jr. - PV-201 
$34.95 PiTFT Mini Kit 320x240 


在 10.4 节 还 有 更 多 机 会 来 了 解 切 片 (slice) SR. WM Python 用 户 
的 角度 出 发 ， 切 片 还 有 个 两 个 额外 的 功能 : 多 维 切片 和 省 略 表示 法 
Clak 


2.4.3 ”多维 切 片 和 省 上 略 


[] 运算 符 里 还 可 以 使 用 以 逗号 分 开 的 多 个 索引 或 者 是 切片 ， 外 部 库 
NumPy 里 就 用 到 了 这 个 特性 ， 二 维 的 numpy .ndarray 就 可 以 用 ali, 
j] 这 种 形式 来 获取 ， 抑 或 是 用 almin, k:1] 的 方式 来 得 到 二 维 切片 。 
稍 后 的 示例 2-22 会 展示 这 个 用 法 。 要 正确 处 理 这 种 [] 运算 符 的 话 ， 对 
象 的 特殊 方法 ”getitem 和 setitem ”需要 以 元 组 的 形式 来 接收 
a[i，j] 中 的 索引 。 也 就 是 说 ， 如 果 要 得 到 a[i，j] 的 值 ，Python 会 
调用 a. getitem ((i,，j))。 


Python 内 置 的 序列 类 型 都 是 一 维 的 ， 因 此 它们 只 文 持 单一 的 索引 ， 成 对 
出 现 的 索引 是 没有 用 的 。 


省 略 〈ellipsis) 的 正确 书写 方法 是 三 个 英语 句号 〈...) ， 而 不 是 
Unicdoe 码 位 U+2026 表示 的 半 个 省 略 号 C.) 。 省 略 在 Python 解析 器 眼 
里 是 一 个 符号 ， 而 实际 上 它 是 Ellipsis 对 象 的 别名 ， 而 Ellipsis 对 象 


又 是 ellipsis 类 的 单一 实例 。“ 它 可 以 当 作 切片 规范 的 一 部 分 ， 也 可 
以 用 在 函数 的 参数 清单 中 ， 比 如 f(a，...，z), 或 a[i:...]。 在 
NumPy F, ... 用 作 和 多 维 数 组 切片 的 快捷 方式 。 如 果 x 是 四 维 数组 ， 那 
4 x[i, ...] 就 是 x[i，:，:，:] WAS. 如 果 想 了 解 更 多 ， 请 参 
见 “Tentative NumPy 

Tutorial” Chttp://wiki.scipy.org/Tentative NumPy Tutorial) 。 


?是 的 ， 你 没 看 错 ，ellipsis 是 类 名 ， 全 小 写 ， 而 它 的 内 置 实例 写作 Ellipsis. HSH 
bool 是 小 号， 但 是 它 的 两 个 实例 写作 True 和 False 异曲同工 。 


在 写 这 本 书 的 时 候 ， 我 还 没有 发 现在 Python 的 标准 库 里 有 任何 
Ellipsis 或 者 是 多 维 索引 的 用 法 。 如 果 你 知道 ， 请 告诉 我 。 这 些 句法 
人 
列子 。 


除了 用 来 提取 序列 里 的 内 容 ， 切 片 还 可 以 用 来 就 地 修改 可 变 序 列 ， 也 就 
是 说 修改 的 时 候 不 需要 重新 组 建 序列 。 


2.4.4 给 切片 赋值 


如 果 把 切片 放 在 赋值 语句 的 左边 ， 或 把 它 作为 del 操作 的 对 象 ， 我 们 就 
可 以 对 序列 进行 尹 接 、 切 除 或 就 地 修改 操作 。 通 过 下 面 这 几 个 例子 ， 你 
应 该 就 能 体会 到 这 些 操作 的 强大 功能 : 


>>> 1 = list(range(1@) ) 

>>> 1 

[@, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

>>> 1[2:5] = [20, 30] 

>>> 1 

[6, 1, 20, 30, 5, 6, 7, 8, 9] 

>>> del 1[5:7] 

>>> 1 

[6, 1, 20, 30, 5, 8, 9] 

>>> 1[3::2] = [11, 22] 

>>> 1 

[6, 1, 20, 11, 5, 22, 9] 

>>> 1[2:5] = 100 @ 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: can only assign an iterable 


>>> 1[2:5] = [100] 
>>> 1 
[@, 1, 100, 22, 9] 


@ WRU ZENH, IA ELT A) AG EST IS 
对 象 。 即 便 只 有 单独 一 个 值 ， 也 要 把 它 转换 成 可 迭代 的 序列 。 


序列 的 拼接 操作 可 谓 是 众 押 周知， 任何 一 本 Python 入 门 教材 都 会 介绍 + 
和 * 的 用 法 ， 但 是 在 这 些 用 法 的 背后 还 有 一 些 可 能 被 忽视 的 细节 。 下 面 
就 来 看 看 这 两 种 操作 。 


2.5 ”对 序列 使 用 + 和 * 


Python 程序 员 会 默认 序列 是 支持 + 和 * 操作 的 。 通 常 + 号 两 侧 的 序列 由 
相同 类 型 的 数据 所 构成 ， 在 拼接 的 过 程 中 ， 两 个 被 操作 的 序列 都 不 会 被 
修改 ，Python 会 新 建 一 个 包含 同样 类 型 数据 的 序列 来 作为 拼接 的 结果 。 


如 琳 想 要 把 一 个 序列 复制 几 份 然后 再 拼接 起 来 ， 更 快捷 的 做 法 是 把 这 个 
序列 乘 以 一 个 整数 。 同 样 ， 这 个 操作 会 产生 一 个 新 序列 : 


>>> 1 = [1, 2, 3] 
>>> 1*5 
[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3] 


>>> 5 * 'abcd' 
'abcdabcdabcdabcdabcd' 


-a Paes Erne! Me ele 
FYI 


Be 如 果 在 a * n 这 个 语句 中 ， 序 列 a 里 的 元 素 是 对 其 他 可 变 
对 象 的 引用 的 话 ， 你 就 需要 格外 注意 了 ， 因 为 这 个 式 子 的 结果 可 能 
会 出 平 意料 。 比 如 ， 你 想 用 my_list = [[]] * 3 来 初始 化 一 个 
由 列表 组 成 的 列表 ， 但 是 你 得 到 的 列表 里 包含 的 3 个 元 素 其 实 是 3 
个 引用 ， 而 且 这 3 个 引用 指 癌 的 都 是 同一 个 列表 。 这 可 能 不 是 你 想 
要 的 效果 。 


下 面 来 看 看 如 何 用 * 来 初始 化 一 个 由 列表 组 成 的 列表 。 
建立 由 列表 组 成 的 列表 
有 时 我 们 会 需要 初始 化 一 个 嵌 套 着 几 个 列表 的 列表 ， 璧 如 一 个 列表 可 能 


需要 用 来 存放 不 同 的 学 生 名单 ， 或 者 是 一 个 井 字 游 戏 板 ” 上 的 一 行 方 
块 。 想 要 达成 这 些 目的 ， 最 好 的 选择 是 使 用 列表 推导 ， 见 示例 2-12. 


"又 称 过 三 关 ， 是 一 种 在 3x3 的 方块 矩阵 上 进行 的 游戏 。 一 一 译 者 注 


示例 2-12 一 个 包含 3 PIRI, REK 3 个 列表 各 自 有 3 个 
元 素来 代表 井 字 游戏 的 一 行 方块 


>>> board = [['_'] * 3 for i in range(3)] © 
>>> board 


PEA ry neg s ae 
>>> board[1][2] = 'x' @ 
>>> board 


[[ ae 


O 建立 一 个 包含 3 个 列表 的 列表 ， 被 包含 的 3 个 列表 各 自 有 3 个 元 
Ho FT EVM MRE IIR. 


@ 把 第 1 行 第 2 列 的 元 素 标记 为 X， 再 打印 出 这 个 列表 。 


示例 2-13 展示 了 男 一 个 方法 ， 这 个 方法 看 上 去 是 个 诱 人 的 捷径， 但 实 
际 上 它 古 错 的 。 


示例 2-13 含有 3 个 指向 同一 对 象 的 引用 的 列表 是 毫 无 用 处 的 


>>> weird board = [['_'] * 3] * 3 QO 
>>> weird_board 


M’ ‘_', ‘_'], 


= Ra 
>>> weird_board[1][2] = ' 
>>> weird_board 


[[ nto ball ety. 


@ 外 面 的 列表 其 实 包含 3 个 指向 同一 个 列表 的 引用 。 当 我 们 不 做 修改 
的 时 候 ， 看 起 来 都 还 好 。 


O 一 旦 我 们 试图 标记 第 1 行 第 2 列 的 元 素 ， 就 立马 暴露 了 列表 内 的 3 
个 引用 指向 同一 个 对 象 的 事实 。 


示例 2-13 犯 的 错误 本 质 上 跟 下 面 的 代码 犯 的 错误 一 样 : 
row=['_'] * 3 


board = [] 
for i in range(3): 


board.append(row) @ 


@ 追加 同一 个 行 对 象 (row) 3 次 到 游戏 板 (board) 。 
R, WA 2-12 中 的 方法 等 同 于 这 样 做 : 


>>> board = [] 

>>> for i in range(3): 
row=['_'] *3 # 0 
board. append(row) 


>>> board 


[by ee ole Fea a 
>>> board[2][@] = 'X' 

>>> board # O 

[[ a ab T2’ ee 


@ 每 次 迭代 中 都 新 建 了 一 个 列表 ， 作 为 新 的 一 行 Crow) 奶 加 到 游戏 板 
(board) 。 


O 正如 我 们 所 期 待 的 ， 只 有 第 2 行 的 元 素 被 修改 。 


% 如 果 你 觉得 这 一 市 里 所 说 的 问题 及 其 对 应 的 解决 方法 都 有 点 
DEZE, RRR. P8 半 里 我 们 会 详细 说 明 引 用 和 可 变 对 象 背后 
的 原理 和 陷阱 。 


我 们 一 直 在 说 + 和 *， 但 是 别 志 了 我 们 还 有 += 和 *=。 随 大 目标 序列 的 
可 变性 的 变化 ， 这 个 两 个 运算 符 的 结果 也 大 相 径 许 。 下 一 节 就 来 详细 讨 


论 。 


2.6 ”序列 的 增 量 赋值 


增 量 赋值 运算 符 += 和 *= 的 表现 取决 于 它们 的 第 一 个 操作 对 象 。 简 单 起 
见 ， 我 们 把 讨论 集中 在 增 量 加 法 (+=) 上 ， 但 是 这 些 概念 对 *= 和 其 他 
增 量 运算 符 来 说 都 是 一 样 的 。 


+= 背后 的 特殊 方法 是 “iadd “用 于 “就 地 加 法 ”) 。 但 是 如 果 一 个 类 
没有 实现 这 个 方法 的 话 ，Python 会 退 一 步调 用 add  。 考 虑 下 面 这 
个 简单 的 表达 式 : 


>>> a t= b 


WR a 实现 了 __iadd__ 方法 ， 就 会 调用 这 个 方法 。 同 时 对 可 变 序列 
(例如 1ist、bytearray 和 array.array) 来 说 ，a 会 就 地 改动 ， 就 
像 调 用 了 a.extend(b) 一 样 。 但 是 如 果 a 没有 实现 “iadd ”的话 ，a 
+= b 这 个 表达 式 的 效果 就 变 得 跟 a = a + b 一 样 了 : 首先 计算 a + 
b， 得 到 一 个 新 的 对 象 ， 然 后 赋值 给 a。 也 就 是 说 ， 在 这 个 表达 式 中 ， 
变量 名 会 不 会 被 关联 到 新 的 对 象 ， 完 全 取 雇 于 这 个 类 型 有 没有 实现 

_ iadd _ 这 个 方法 。 

总 体 来 讲 ， 可 变 序列 一 般 都 实现 了 __iadd__ 方法 ， 因 此 += 是 就 地 加 
法 。 而 不 可 变 序列 根本 就 不 支持 这 个 操作 ， 对 这 个 方法 的 实现 也 就 无 从 


谈 起 。 


上 面 所 说 的 这 些 关 于 += 的 概念 也 适用 于 *=， 不 同 的 是 ， 后 者 相对 应 的 
是 imul 。 关 于 iadd 和 imul ， 第 13 章 中 会 再 次 提 到 。 


接 下 来 有 个 小 例子 ， 展 示 的 是 *= 在 可 变 和 不 可 变 序 列 上 的 作用 : 


>>> l = [1, 2, 3] 
>>> id(1) 
4311953800 @ 
>>> 1 *= 2 


>>> 1 

[1, 2, 3, 1, 2, 3] 
>>> id(1) 
4311953800 @ 


>>> t = (1, 2, 3) 
>>> id(t) 
4312681568 

>>> t *= 2 

>>> id(t) 
4301348296 © 


O 刚 开 始 时 列表 的 ID. 

四 运用 增 量 乘法 后 ， 列 表 的 ID 没 变 ， 新 元 素 追 加 到 列表 上 。 

© 元 组 最 开始 的 ID. 

O 运用 增 量 乘法 后 ， 新 的 元 组 被 创建 。 

对 不 可 变 序 列 进行 重复 拼接 操作 的 话 ， 效 率 会 很 低 ， 因 为 每 次 都 有 一 个 


新 对 象 ， 而 解释 器 雳 妥 把 原来 对 象 中 的 元 素 先 复制 到 新 的 对 象 里 ， 然后 
再 退 加 新 的 元 素 。 


“str 是 一 个 例外 ， 因 为 对 字符 串 做 += 实在 是 太 普遍 了 ， 所 以 CPython 对 它 做 了 优化 。 为 str 
初始 化 内 存 的 时 候 ， 程 序 会 为 它 留 出 额外 的 可 扩展 空间 ， 因 此 进行 增 量 操作 的 时 候 ， 并 不 会 涉 
及 复制 原 有 字符 串 到 新 位 置 这 类 操作 。 


我 们 已 经 认识 了 += 的 一 般 用 法 ， 下 面 来 看 一 个 有 意思 的 边界 情况 。 这 
个 例子 可 以 说 是 突出 展示 了 “不 可 变性 ”对 于 元 组 来 说 到 的 意味 着 什 么 。 


一 个 关于 += 的 谜 题 


读 完 下 面 的 代码 ， 然 后 回答 这 个 问题 : 示例 2-14 PAP Seek SUBIR 
会 产生 什么 结果 ? “回答 之 前 不 要 用 控制 台 去 运行 这 两 个 式 子 。 


5 感谢 Leonardo Rochael 在 2013 年 的 Python 巴西 会 议 上 提 到 这 个 谜 题 。 
示例 2-14 ”一 个 谜 题 


>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 


PIER ACE PIAL 4 种 情况 中 的 哪 一 种 ? 


a. t MK (1, 2, [30, 40, 50, 60]). 

b. 因为 tuple 不 文 持 对 它 的 元 素 赋 值 ， 所 以 会 抛 出 TypeError 异常 。 
c. 以 上 两 个 都 不 是 。 

d.a 和 hb 都 是 对 的 。 

我 刚 看 到 这 个 问题 的 时 候 ， 腊 间 确 定 地 选择 了 pb， 但 其 实 答案 是 d， 也 


就 是 说 a 和 hb 都 是 对 的 ! 示例 2-15 是 运行 这 段 代 码 得 到 的 结果 ， 用 的 
Python 版 本 是 3.4， 但 是 在 2.7 中 结果 也 一 样 。6 


6 有 读者 提出 ， 如 果 写 成 t[2] .extend([56，68]) 就 能 避免 这 个 异常 。 确 实 是 这 样 ， 但 这 个 
例子 是 为 了 展示 这 种 奇怪 的 现象 而 专门 写 的 。 


示例 2-15 没 人 料 到 的 结果 : t[2] RAS, BEBA A PH 


>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 
>>> t 
(1, 2, [30, 40, 50, 60]) 


Python Tutor (http://www.pythontutor.com) 是 一 个 对 Python 运行 原理 进行 
可 视 化 分 析 的 工具 。 图 2-3 里 是 两 张 截图 ， 分 别 代表 示例 2-15 FF t 的 
初始 和 最 终 状 态 。 


t= (1, 2, [30, 40]) Frames Objects 


“= t[2] += [50, 60] Global frame tuple ist 
0 Yt Y2 o E 
Edit code t 30 | 40 


<< First <Back | Step 2 of 2 | Forwar d> Last >> 


—n t 
t = (1, 2, [30, 40]) Frames Objects 
n t[2] += [50, 60] Global frame tuple ist 
Edit code = ~” x a P E PA ix B 
<< First <Back | Program terminated 

TypeError: 'tuple' object does not support item assignment 

Sino 
图 2-3: FOZ UE < HAAN oR ARRAS CANS A Python Tutor 网 站 
ÆR) 


下 面 来 看 看 示例 2-16 中 Python 为 表达 式 s[a] += b 生成 的 字 节 码 ， 可 
能 这 个 现象 背后 的 原因 会 变 得 清晰 起 来 。 


示例 2-16 s[a] = b 背 后 的 字 节 码 


>>> dis.dis('s[a] += b') 
1 @ LOAD_NAME 
3 LOAD NAME 
DUP_TOP_TWO 
BINARY_SUBSCR 


LOAD_NAME 
INPLACE_ADD 

ROT_THREE 

STORE_SUBSCR 

LOAD_CONST @(None) 
RETURN_VALUE 


O % s[a] 的 值 存 入 TOS (Top OfStack， 栈 的 顶端 ) 。 


Oit TOS += b。 这 一 步 能 够 完成 ， 是 因为 TOS 指 癌 的 是 一 个 可 变 对 
象 〈 也 就 是 示例 2-15 里 的 列表 ) 。 


© s[a] = TOS 赋值 。 这 一 步 失败 ， 是 因为 s 是 不 可 变 的 元 组 (示例 2- 


15 中 的 元 组 七 ) 。 


这 其 实 是 个 非常 军 见 的 边界 情况 ， 在 15 年 的 Python 生涯 中 ， 我 还 没 见 
过 谁 在 这 个 地 方 吃 过 亏 。 


至 此 我 得 到 了 3 个 教训 。 
。 不 要 把 可 变 对 象 放 在 元 组 里 面 。 


。 增 量 赋值 不 是 一 个 原子 操作 。 我 们 刚才 也 看 到 了 ， 它 虽然 抛 出 了 寞 
常 ， 但 还 是 完成 了 操作 。 


。 AF Python 的 字 节 码 并 不 难 ， 而 且 它 对 我 们 了 解 代 码 育 后 的 运行 机 
制 很 有 帮助 。 


在 见证 了 + 和 * 的 微妙 之 处 后 ， 我 们 把 话题 转移 到 序列 类 型 的 男 一 个 重 
要 部 分 上 : 排序 。 


2.7 1ist.sort 方 法 和 内 置 国 数 sorted 


list.sort 方法 会 就 地 排序 列表 ， 也 就 是 说 不 会 把 原 列 表 复 制 一 份 。 这 
也 是 这 个 方法 的 返回 值 是 None 的 原因 ， 提 醒 你 本 方法 不 会 新 建 一 个 列 
表 。 在 这 种 情况 下 返回 None 其 实 是 Python 的 一 个 惯例 : 如果 一 个 函数 
或 者 方法 对 对 象 进 行 的 是 就 地 改动 ， 那 它 就 应 该 返回 None， 好 让 调用 
者 知道 传 入 的 参数 发 生 了 变动 ， 而 且 并 未 产生 新 的 对 象 。 例 

如 ，random.shuffle 函数 也 遵守 了 这 个 惯例 。 


` 用 返回 None REIR DEAA A AA Az H 
者 无 法 将 其 串联 起 来 。 而 返回 一 个 新 对 象 的 方法 《比如 说 str 里 的 
所 有 方法 ) 则 正好 相反 ， 它 们 可 以 串联 起 来 调用 ， 从 而 形成 连贯 接 
O (fluent interface) 。 详 情 参见 维基 百科 中 有 关连 贯 接口 的 讨论 
Chttps://en.wikipedia.org/wiki/Fluent interface) 。 


5 list.sort 相反 的 是 内 置 函 数 sorted， 它 会 新 建 一 个 列表 作为 返回 
值 。 这 个 方法 可 以 接受 任何 形式 的 可 迭代 对 象 作 为 参数 ， 甚 至 包括 不 可 
变 序列 或 生成 器 〈 见 第 14 章 ) 。 而 不 管 sorted 接受 的 是 怎样 的 参 
数 ， 它 最 后 都 会 返回 一 个 列表 。 


不 管 是 list.sort 方法 还 是 sorted 函数 ， 都 有 两 个 可 选 的 关键 字 参 
数 。 


reverse 


GUAR EA True, WHF EKTRE ARETA Ca 
是 说 把 最 大 值 当 作 最 小 值 来 排序 ) 。 这 个 参数 的 默认 值 是 False。 


key 


一 个 只 有 一 个 参数 的 函数 ， 这 个 函数 会 被 用 在 序列 里 的 每 一 个 元 素 
上 ， 所 产生 的 结果 将 是 排序 算法 依赖 的 对 比 关 键 字 。 比 如 说 ， 在 对 一 些 
字符 串 排 序 时 ， 可 以 用 key=str. lower 来 实现 忽略 大 小 写 的 排序 ， 或 
者 是 用 key=len 进行 基于 字符 串 长 度 的 排序 。 这 个 参数 的 默认 值 是 恒 


ERRA Cdentity function) , Hite BAH sce A CARE - 


A 可 选 参数 key 还 可 以 在 内 置 函 数 min() 和 max() 中 起 作用 。 
另外 ， 还 有 些 标 准 库 里 的 函数 也 接受 这 个 参数 ， 像 
itertools.groupby() 和 heapq.nlargest() 等 。 


下 面 通过 几 个 小 例子 来 看 看 这 两 个 函数 和 它们 的 关键 字 参 数 : 7 


“这 几 个 例子 还 说 明了 Python 的 排序 算法 一 一 Timsort 一 一 是 稳定 的 ， 意 思 是 就 算 两 个 元 素 比 不 
出 大 小 ， 在 每 次 排序 的 结果 里 它们 的 相对 位 置 是 固定 的 。Timsort 在 本 章 结 尾 的 “杂谈 ”里 会 有 


进一步 的 讨论 。 


>>> fruits = ['grape', ‘raspberry’, ‘apple', ‘banana’ ] 
>>> sorted(fruits) 

['apple', ‘banana', 'grape', ‘raspberry’ ] 

>>> fruits 

['grape', ‘raspberry', ‘apple', ‘banana’ ] 

>>> sorted(fruits, reverse=True) 

['raspberry', 'grape', ‘banana’, ‘apple’ ] 

>>> sorted(fruits, key=len) 

['grape', ‘apple’, ‘banana’, ‘raspberry’ ] 

>>> sorted(fruits, key=len, reverse=True) 


>>> fruits 

['grape', 'raspberry', ‘apple', ‘banana’ ] 
>>> fruits.sort() 

>>> fruits 

['apple', ‘banana', 'grape', ‘raspberry’ ] 


0 
(2) 
© 
(4) 
['raspberry', 'banana', 'grape', 'apple'] © 
(6) 
(7) 
© 


@ 新 建 了 一 个 按照 字母 排序 的 字符 串 列表 。 
O 原 列表 并 没有 变化 。 
O 按照 字母 降序 排序 。 


O 新 建 一 个 按照 长 度 排序 的 字符 串 列 表 。 因 为 这 个 排序 算法 是 稳定 
Dor 和 apple 的 长 度 都 是 5， 它 们 的 相对 位 置 跟 在 原来 的 列表 里 是 


O 按照 长 度 降 序 排序 的 结果 。 结 果 并 不 是 上 面 那 个 结果 的 完全 翻转 ， 


因为 用 到 的 排序 算法 是 稳定 的 ， 也 就 是 说 在 长 度 一 样 时 ，grape 和 apple 
的 相对 位 置 不 会 改变 。 


O 直到 这 一 步 ， 原 列表 fruits 都 没有 任何 变化 。 

O 对 原 列表 就 地 排序 ， 返 回 值 None RIE S AK 

@ 此 时 fruits 本 身 被 排序 。 

己 排序 的 序列 可 以 用 来 进行 快速 搜索 ， 而 标准 库 的 bisect 模块 给 我 们 


提供 了 二 分 查找 算法 。 下 一 节 会 详细 讲 这 个 函数 ， 顺 便 还 会 看 看 
bisect.insort 如 何 让 已 排序 的 序列 保持 有 序 。 


2.8 用 bisect 来 管理 已 排序 的 序列 


bisect 模块 包含 两 个 主要 函数 ，bisect 和 insort， 两 个 函数 都 利用 
二 分 查找 算法 来 在 有 序 序列 中 查找 或 插入 元 素 。 


2.8.1 用 bisect 来 搜索 


bisect(haystack, needle) 在 haystack (FER) 里 搜索 

needle (H) 的 位 置 ， 该 位 置 满足 的 条 件 是 ， 把 needle 插入 这 个 位 置 
之 后 ，haystack 还 能 保持 升序 。 也 就 是 在 说 这 个 函数 返回 的 位 置 前 面 
的 值 ， 都 小 于 或 等 于 needle 的 值 。 其 中 haystack 必须 是 一 个 有 序 的 
序列 。 你 可 以 先 用 bisect(haystack, needle) ÆRME index, H 
用 haystack.insert(index, needle) 来 插入 新 值 。 但 你 也 可 用 
insort 来 一 步 到 位 ， 并 且 后 者 的 速度 更 快 一 些 。 


~I Python 的 高 产 页 献 者 Raymond Hettinger 5 了 一 个 排序 集合 模 
ER Chttp://code.activestate.com/recipes/577197-sortedcollection/) ， 模 
块 里 集成 了 bisect 功能 ， 但 是 比 独立 的 bisect 更 易 用 。 


示例 2-17 利用 几 个 精心 挑选 的 needle， 癌 我 们 展示 了 bisect 返回 的 
不 同位 置 值 。 这 段 代 码 的 输出 结果 显示 在 图 2-4 中 。 


示例 2-17 在 有 序 序列 中 用 bisect 查找 某 个 元 素 的 插入 位 置 


import bisect 
import sys 


HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30] 
NEEDLES = [@, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31] 


ROW_ FMT = '{@:2d} @ {1:2d}  {2}{@:<2d}' 


def demo(bisect fn): 
for needle in reversed(NEEDLES): 
position = bisect fn(HAYSTACK, needle) @ 
offset = position * ' |' 


print(ROW_FMT.format(needle, position, offset)) © 
if _name == '_ main _ 


if sys.argv[-1] == 'left': @ 
bisect_fn = bisiet bisect age 
else: 
bisect_fn = bisect.bisect 


print('DEMO:', bisect fn. name ) © 
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK) ) 
demo(bisect_fn) 


@ 用 特定 的 bisect 函数 来 计算 元 素 应 该 出 现 的 位 置 。 
分 刊 用 该 位 置 来 算出 需要 几 个 分 隅 符号 。 
O 把 元 素 和 其 应 该 出 现 的 位 置 打印 出 来 。 


O 根据 命令 上 最 后 一 个 参数 来 选用 bisect 函数 。 
O 把 选 定 的 函数 在 抬头 打印 出 来 。 


02-array-seq/ $ python3 bisect_demo.py 
DEMO: bisect 
haystack -> Oo 2a: 
ia 
i 
| | 
| 
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图 2-4: 用 bisect 函数 时 示例 2-17 的 输出 。 每 一 行 以 needle @ 
position (元 素 及 其 应 该 插入 的 位 置 ) 开始 ， 然 后 展示 了 该 元 素 在 
原 序 列 中 的 物理 位 置 


bisect 的 表现 可 以 从 两 个 方面 来 调教 。 


首先 可 以 用 它 的 两 个 可 选 参数 一 一 lo 和 hi 一 一 来 缩小 搜寻 的 范围 。1o 
的 默认 值 是 86，hi 的 默认 值 是 序列 的 长 度 ， 即 len() 作用 于 该 序列 的 


返回 值 。 


EK, bisect 函数 其 实 是 bisect_right 函数 的 别名 ， 后 者 还 有 个 姊 
妹 函 数 叫 bisect_left。 它 们 的 区 别 在 于 ，bisect_left 返回 的 插入 


位 置 是 原 序 列 中 跟 被 插入 元 素 相等 的 元 素 的 位 置 ， 也 就 是 新 元 素 会 被 放 
置 于 它 相 等 的 元 素 的 前 面 ， 而 bisect_right 返回 的 则 是 跟 它 相等 的 元 
素 之 后 的 位 置 。 这 个 细微 的 差别 可 能 对 于 整数 序列 来 讲 没 什么 用 ,但 是 
对 于 那些 值 相等 但 是 形式 不 同 的 数据 类 型 来 讲 ， 结 果 束 不 一 样 了 。 比 如 
说 虽然 1 == 1.0 的 返回 值 是 True，1 和 1. 其实 是 两 个 不 同 的 元 

素 。 图 2-5 显示 的 是 用 bisect_left 来 运行 上 述 示 例 的 结果 。 


02-array-seq/ $ python3 bisect_demo.py left 
DEMO: bisect_left 


haystack -> 
31 @ 14 
30 @ 13 
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图 2-5: 用 bisect_left 运行 示例 2-17 得 到 的 结果 《〈 跟 图 2-4 对 比 
可 以 发 现 ， 值 1、8、23、29 和 30 的 插入 位 置 变 成 了 原 序列 中 这 些 


值 的 前 面 ) 


bisect 可 以 用 来 建立 一 个 用 数字 作为 索引 的 得 询 表 格 ， 比 如 说 把 分 数 
和 成 绩 $ 对 应 起 来 ， 见 示例 2-18. 


3 成绩 指 的 是 在 美国 大 学 中 普遍 使 用 的 A~F 字母 成 绩 ，A 表示 优秀 ，F 表示 不 及 格 。 一 一 译 者 
注 


示例 2-18 根据 一 个 分 数 ， 找 到 它 所 对 应 的 成 绩 


>>> def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'): 
i = bisect.bisect(breakpoints, score) 
return grades[i] 


for score in [33, 99, 77, 70, 89, 90, 100]] 


>>> [grade(score) 
"Fey 'A' CE Ca B', ‘A', 'A'] 


示例 2-18 里 的 代码 来 自 bisect 模块 的 文档 

(https://docs.python.org/3/library/bisect.html) 。 文 档 里 列举 了 一 些 利用 
bisect 的 函数 ， 它 们 可 以 在 很 长 的 有 序 序列 中 作为 index Wt, A 
来 更 快 地 查找 一 个 元 素 的 位 置 。 


这 些 函 数 不 但 可 以 用 于 查找 ， 还 可 以 用 来 同 序 列 中 插入 新 元 素 ， 下 面 就 
来 看 看 它们 的 用 法 。 
2.8.2 ”用 bisect.insort 插 入 新 元 素 


排序 很 耗 时 ， 因 此 在 得 到 一 个 有 序 序列 之 后 ， 我 们 最 好 能 够 保持 它 的 有 
Fr. bisect.insort 就 是 为 了 这 个 而 存在 的 。 


insort(seq，item) 把 变量 item 插入 到 序列 seq 中 ， 并 能 保持 seq 
的 升序 顺序 。 详 见 示 例 2-19 和 它 在 图 2-6 里 的 输出 。 


示例 2-19 insort 可 以 保持 有 序 序列 的 顺序 


import bisect 
import random 


SIZE=7 


random. seed(1729) 


my_list = [] 

for i in range(SIZE): 
new_item = random.randrange(SIZE*2) 
bisect.insort(my_list, new_item) 
print('%2d ->' % new_item, my_list) 


Q@2-array-seq/ $ python3 bisect_insort.py 


10 -> [10] 

0 -> [@, 10] 

6 -> [0, 6, 10] 

8 -> [0, 6, 8, 10] 

7 => (6, 6, 7, 6, 16) 

Z =>. (Oe es Oy To By 10 

10: =>-10, 2. 6, 7, 8, 18, 39) 


图 2-6: 示例 2-19 的 输出 


insort 跟 bisect 一 样 ， 有 lo 和 hi 两 个 可 选 参数 用 来 控制 查找 的 范 
围 。 它 也 有 个 变 体 叫 insort_left， 这 个 变 体 在 背后 用 的 是 
bisect_left. 


目前 所 提 到 的 内 容 都 不 仅仅 是 对 列表 或 者 元 组 有 效 ， 还 可 以 应 用 于 几乎 
所 有 的 序列 类 型 上 。 有 时 候 因 为 列表 实在 是 太 方便 了 ， 所 以 Python 程序 
员 可 能 会 过 度 使 用 它 ， 反 正 我 知道 我 犯 过 这 个 毛病 。 而 如 果 你 只 需要 处 
理 数 字 列 表 的 话 ， 数 组 可 能 古 个 更 好 的 选择 。 下 面 就 来 讨论 一 些 可 以 答 
换 列 表 的 数据 结构 。 
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虽然 列表 既 灵 活 又 简单 ， 但 面 对 各 类 需求 时 ， 我 们 可 能 会 有 更 好 的 选 
择 。 比 如 ， 要 存放 1000 万 个 浮 点 数 的 话 ， 数 组 Carray) 的 效率 要 高 
得 多 ， 因 为 数组 在 背后 存 的 并 不 是 float 对 象 ， 而 是 数字 的 机 器 翻 

译 ， 也 就 是 字 节 表述 。 这 一 点 就 跟 C 语言 中 的 数组 一 样 。 再 比如 说 ， 如 
果 需 要 频繁 对 序列 做 先进 先 出 的 操作 ，deque〔( 双 端 队 列 ) 的 速度 应 该 


会 更 快 。 


% 如 果 在 你 的 代码 里 ， 包 含 操作 (比如 检查 一 个 元 素 是 否 出 现 

在 一 个 集合 中 ) 的 频率 很 高 ， 用 set RA) 会 更 合适 。set GH 
检查 元 素 是 否 存在 做 过 优化 。 但 是 它 并 不 是 序列 ， 因 为 set 是 无 序 
的 。 第 3 章 会 详细 讨论 它 。 


本 章 余 下 的 内 容 都 是 关于 在 茶 些 情况 下 可 以 蔡 换 列表 的 数据 类 型 的 ， 让 
我 们 从 数组 开始 。 


2.9.1 数组 


如 果 我 们 需要 一 个 只 包含 数字 的 列表 ， 那 么 array.array 比 list 更 
高 效 。 数 组 支持 所 有 跟 可 变 序列 有 关 的 操作 ， 包 括 .pop、.insert 和 
.eXtend。 男 外 ， 数 组 还 提供 从 文件 读 取 和 存 入 文件 的 更 快 的 方法 ， 如 
.frombytes 和 .tofile. 


Python 数组 跟 C 语言 数组 一 样 精简 。 创 建 数 组 需要 一 个 类 型 码 ， 这 个 类 
型 码 用 来 表示 在 底层 的 C 语言 应 该 存放 怎样 的 数据 类 型 。 比 如 b 类 型 码 
代表 的 是 有 符号 的 字符 (signed char) ， 因 此 array('b') 创建 出 的 
数组 就 只 能 存放 一 个 字 节 大 小 的 整数 ， 范 围 从 -128 到 127， 这 样 在 序列 
很 大 的 时 候 ， 我 们 能 节省 很 多 空间 。 而 且 Python 不 会 允许 你 在 数组 里 存 
放 除 指定 类 型 之 外 的 数据 。 


示例 2-20 展示 了 从 创建 一 个 有 1000 万 个 随机 浮 点 数 的 数组 开始 ， 到 如 
何 把 这 个 数组 存放 到 文件 里 ， 再 到 如 何 从 文件 读 取 这 个 数组 。 


示例 2-20 一 个 浮 点 型 数组 的 创建 、 存 入 文件 和 从 文件 读 取 的 过 程 


>>> from array import array © 

>>> from random import random 

>>> floats = array('d', (random() for i in range(10**7))) @ 
>>> floats[-1] 

0.07802343889111107 

>>> fp = open('floats.bin', 'wb') 
>>> floats.tofile(fp) ©@ 

>>> fp.close() 

>>> floats2 = array('d') © 

>>> fp = open('floats.bin', 'rb') 
>>> floats2.fromfile(fp, 10**7) © 
>>> fp.close() 

>>> floats2[-1] @ 
@.07802343889111107 

>>> floats2 == floats © 

True 


@ 引入 array 类 型 。 
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O 查看 数组 的 最 后 一 个 元 素 。 

O 把 数组 存 入 一 个 二 进 制 文件 里 。 

O 新 建 一 个 双 精 度 浮 点 空 数 组 。 

@ 把 1000 万 个 浮 点 数 从 二 进 制 文件 里 读 取 出 来 。 

@ 查看 新 数组 的 最 后 一 个 元 素 。 

@ 检查 两 个 数组 的 内 容 是 不 是 完全 一 样 。 

从 上 面 的 代码 我 们 能 得 出 结论 ，array .tofile 和 array .fromfile 用 
起 来 很 简单 。 把 这 段 代 码 跑 一 跑 ， 你 还 会 发 现 它 的 速度 也 很 快 。 一 个 小 
试验 告诉 我 ， 用 array .fromfile 从 一 个 二 进 制 文 件 里 读 出 1000 万 个 


双 精 度 浮 点 数 只 需要 0.1 秒 ， 这 比 从 文本 文件 里 读 取 的 速度 要 快 60 
倍 ， 因 为 后 者 会 使 用 内 置 的 float 方法 把 每 一 行文 字 转 换 成 浮 点 数 。 


另外 ， 使 用 array.tofile 写 入 到 二 进 制 文件 ， 比 以 每 行 一 个 浮 点 数 的 
方式 把 所 有 数字 写 入 到 文本 文件 要 快 7 倍 。 另 外 ，1000 万 个 这 样 的 数 
在 二 进 制 文件 里 只 占用 80 000 000 个 字 节 (每 个 浮 点 数 占 用 8 个 字 节 
个 需要 任何 额外 空间 ) ， 如 果 是 文本 文件 的 话 ， 我 们 需要 181 515 739 
MET o 


A 另外 一 个 快速 序列 化 数字 类 型 的 方法 是 使 用 

pickle Chttps://docs.python.org/3/library/pickle.html) 模 

ER. pickle. dump 处 理 浮 点 数组 的 速度 几乎 跟 ao tofile — 
样 快 。 不 过 前 者 可 以 处 理 几 乎 所 有 的 AES AE, BRA. HK 
套 集合 ， 甚 至 用 户 自 定 义 的 类 。 前 提 是 
实现 。 


还 有 一 些 特殊 的 数字 数组 ， 用 来 表示 二 进 制 数据 ， 比 如 光栅 图 像 。 里 面 
涉及 的 bytes 和 bytearry 类 型 会 在 第 4 章 提 及 。 


K 2-2 对 数组 和 列表 的 功能 做 了 一 些 总 结 。 


表 2-2: 列表 和 数组 的 属性 和 方法 不 包含 过 期 的 数组 方法 以 及 那些 
由 对 象 实现 的 方法 ) 


列 | 数 
表 | 组 


= $2; 
尾部 添 


s.append(e) “the 


s.__contains_ (e) 


s.copy() 


Te 
aii 
ai 
zN 
= 
=a 
pn | 
| 
j 
j 
j 
[h 


删除 位 置 p 的 元 素 


将 可 迭代 对 象 it 里 的 元 素 添 加 到 尾部 


将 二 进 制 文件 f 内 含有 机 器 值 读 出 来 添加 到 尾部 ， 最 多 
添加 n 项 


s.fromfile(f, n) 


s.__iter__ 


将 列表 里 的 元 素 添 加 到 尾部 ， 如 果 其 中 任何 一 个 元 素 导 
致 了 TypeError 异常 ， 那 么 所 有 的 添加 都 会 取消 


s[p]， 读 取 位 置 p 的 元 素 


找到 e 在 序列 中 第 一 次 出 现 的 位 置 


在 位 于 p 的 元 素 之 前 插入 元 素 e 


国 将 压缩 成 机 器 值 的 字 节 序列 读 出 来 添加 到 


返回 迭代 器 


删除 位 于 p 的 值 并 返回 这 个 值 ，p 的 默认 值 是 
元 素 的 位 置 


次 出 现 的 。 元 素 


就 地 调转 序列 中 元 素 的 位 置 


返回 一 个 从 尾部 开始 扫描 元 素 的 迭代 右 


s[p] =e, 把 位 于 p NLA TORR BH e 


s.sort([key], 就 地 排序 序列 ， 可 选 参 数 有 key 和 reverse 


[revers]) 


JOB ATE ALIBI wtes RANTES 
ETRS AE 
AE 列表 ， 列 表 里 的 元 素 类 型 是 数字 对 象 


返回 只 有 一 个 字符 的 字符 串 ， 代 表 数组 元 素 在 C 语言 中 


s.typecode . 的 类 型 


= hele by 


* 第 13 章 会 讲 反 向 运算 符 。 


™ 


从 Python 3.4 开始 ， 数 组 类 型 不 再 支持 诸如 1ist.sort() 这 种 就 地 
排序 方法 。 要 给 数组 排序 的 话 ， 得 用 sorted 函数 新 建 一 个 数组 : 


a = array.array(a.typecode, sorted(a)) 


想 要 在 不 打 乱 次 序 的 情况 下 为 数组 添加 新 的 元 素 ，bisect.insort 
还 是 能 派 上 用 场 〈 就 像 2.8.2 节 中 所 展示 的 ) o 


如 果 你 总 是 跟 数组 打交道 ， 却 没有 上 听 过 memoryview， 那 就 太 遗 憾 了 。 
下 面 就 来 谈 谈 memoryview。 


2.9.2 ”内 存 视图 


memoryview 是 一 个 内 置 类 ， 它 能 让 用 户 在 不 复制 内 容 的 情况 下 操作 同 
一 个 数组 的 不 同 切片 。memoryview 的 概念 受到 了 NumPy 的 启发 (参见 
2.9.3 13) o Travis Oliphant 是 NumPy 的 主要 作者 ， 他 在 回答 “ When 
should a memoryview be 

used?” (http://stackoverflow.com/questions/4845418/when-should-a- 
memoryview-be-used/) 这 个 问题 时 是 这 样 说 的 : 


内 存 视图 其 实 是 泛 化 和 去 数学 化 的 NumPy 数组 。 它 让 你 在 不 需要 

复制 内 容 的 前 提 下 ， 在 数据 结构 之 间 共 享 内 存 。 其 中 数据 结构 可 以 
是 任何 形式 ， 比 如 PIL AH. SQLite 数据 库 和 NumPy 的 数组 ， 等 

等 。 这 个 功能 在 处 理 大 型 数据 集合 的 时 候 非常 重要 。 


memoryview.cast 的 概念 跟 数 组 模块 类 似 ， 能 用 不 同 的 方式 读 写 同一 
块 内 存 数 据 ， 而 且 内 容 字 节 不 会 随意 移动 。 这 听 上 去 又 跟 C 语言 中 类 型 
转换 的 概念 差不多 。memoryview.cast 会 把 同一 块 内 存 里 的 内 容 打包 


成 一 个 全 新 的 memoryview 对 象 给 你 。 


在 示例 2-21 里 ， 我 们 利用 memoryview 精准 地 修改 了 一 个 数组 的 某 个 
字 节 ， 这 个 数组 的 元 素 是 16 位 二 进 制 整数 。 


示例 2-21 通过 改变 数组 中 的 一 个 字 贡 来 更 新 数组 里 茶 个 元 素 的 值 


>>> numbers = array.array('h', [-2, -1, ©, 1, 2]) 
>>> memv = memoryview(numbers) @ 

>>> len(memv) 

5 

>>> memv[6] @ 


2 

>>> memv_oct = memv.cast('B') © 

>>> memv_oct.tolist() © 

[254, 255, 255, 255, ©, Ø, 1, ©, 2, @] 
>>> memv_oct[5] = 4 © 

>>> numbers 

array('h', [-2, -1, 1024, 1, 2]) © 


@ 利用 含有 5 个 短 整 型 有 符号 整数 的 数组 (类 型 码 是 'h') 创建 一 个 


memoryview. 
© memv 里 的 5 个 元 素 跟 数组 里 的 没有 区 别 。 
© 创建 一 个 memv_oct， 这 一 次 是 把 memv 里 的 内 容 转 换 成 'B' 类 型 ， 


Pe A 2> Ay 


也 就 是 无 符号 字符 。 

O 以 列表 的 形式 查看 memv_oct 的 内 容 。 

O 把 位 于 位 置 5 的 字 节 赋值 成 4。 

O 因为 我 们 把 占 2 个 字 节 的 整数 的 高 位 字 节 改 成 了 4， 所 以 这 个 有 符号 
整数 的 值 就 变 成 了 1624。 

在 第 4 章 的 示例 4-4 中 ， 我 们 还 可 以 看 到 如 何 利 用 memoryview 和 
struct 来 操作 二 进 制 序列 。 


另外 ， 如 宋 利用 数组 来 做 高 级 的 数字 处 理 是 你 的 日 疝 工 作 ， 那 么 NumPy 
和 SciPy 应 该 是 你 的 利用 武器 。 下 面 就 是 对 这 两 个 库 的 简单 介绍 。 


2.9.3 NumPy 和 SciPy 


整 本 书 我 都 在 强调 如 何 最 大 限度 地 利用 Python 标准 库 。 但 是 NumPy 和 
SciPy 的 优秀 让 我 觉得 偶尔 跑 个 题 来 谈 谈 它们 也 是 很 值得 的 。 


凭借 着 NumPy 和 SciPy 提供 的 高 阶 数组 和 和 窍 阵 操作 ，Python 成 为 科学 计 
算 应 用 的 主流 语言 。NumPy 实现 了 多 维 同 质 数组 (homogeneous array) 
和 矩阵， 这 些 数据 结构 不 但 能 处 理 数字 ， 还 能 存放 其 他 由 用 户 定义 的 记 
录 。 通 过 NumPy， 用 户 能 对 这 些 数据 结构 里 的 元 素 进 行 高 效 的 操作 。 


SciPy 是 基于 NumPy 的 男 一 个 库 ， 它 提供 了 很 多 跟 科 学 计算 有 关 的 算 
法 ， 专 为 线性 代数 、 数 值 积 分 和 统计 学 而 设计 。SciPy 的 高 效 和 可 靠 性 
归功 于 其 背后 的 C 和 Fortran 代码 ， 而 这 些 跟 计算 有 关 的 部 分 都 源 自 于 
Netlib Æ Chttp://www.netlib.org) 。 换 句 话 说，SciPy 把 基于 C 和 Fortran 
S 交互 式 且 高 度 抽象 的 Python 包装 起 来 ， 让 科学 
家 如 鱼 得 水 。 


示例 2-22 是 一 个 很 简短 的 演示 ， 从 中 可 以 颖 见 一 些 NumPy 二 维 数组 的 
基本 操作 。 


示例 2-22 对 numpy.ndarray 的 行 和 列 进行 基本 操作 


>>> import numpy © 

>>> a = numpy.arange(12) @ 

>>> a 

array([ ®, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) 
>>> type(a) 

<class 'numpy.ndarray' > 

>>> a.shape © 

(12,) 

>>> a.shape = 3, 4 @ 


9， 
4, 5, 6, 7], 
8, 


Vv 
Vv 
Vv 
w 
m~ 
N 
Las 
© 


array([ 8, 9, 10, 11]) 
>>> a[2, 1] © 

9 

>> a[:, 1] Q 

array([1, 5, 9]) 

>>> a.transpose() © 


ð, 4, 8], 
1, 5, 9], 
2， 6 
3， 7 


array([[ 


mmia 


» 10], 
» 11]]) 


mi 


@ 女装 NumPy 之 后 ， 导 入 它 (NumPy 并 不 是 Python 标准 库 的 一 部 
ee 


四 新 建 一 个 0~11 的 整数 的 numpy.ndarry， 然 后 把 它 打印 出 来 。 
全 看 看 数组 的 维度 ， 它 是 一 个 一 维 的 、 有 12 个 元 素 的 数组 。 
O 把 数组 变 成 二 维 的 ， 然 后 把 它 打 印 出 来 看 看 。 


加 打印 出 第 2 行 。 
O 打印 第 2 行 第 1 HMR. 
@ 把 第 1 列 打 印 出 来 。 


O 把 行 和 列 交 换 ， 就 得 到 了 一 个 新 数组 。 


aa 也 可 以 对 numpy.ndarray 中 的 元 素 进 行 抽象 的 读 取 、 保 存 和 其 
KTF: 


>>> import numpy 

>>> floats = numpy.loadtxt('floats-10M-lines.txt') © 

>>> floats[-3:] @ 

array([ 3016362.69195522, 535281.10514262, 4566560.44373946]) 
>>> floats *= .5 

>>> floats[-3:] 

array([ 1508181.34597761, 267640.55257131, 2283280.22186973]) 
>>> from time import perf_counter as pc 

>>> tð = pc(); floats /= 3; pc() -to © 

@.03690556302899495 

>>> numpy.save('floats-10M', floats) © 

>>> floats2 = numpy.load('floats-10M.npy', 'r+') @ 

>>> floats2 *= 6 

>>> floats2[-3:] © 

memmap ([3016362.69195522, 535281.10514262, 4566560.44373946] ) 


@ 从 文本 文件 里 读 取 1000 万 个 译 点 数 。 


O 利用 序列 切片 来 读 取 其 中 的 最 后 3 个 数 。 
O 把 数组 里 的 每 个 数 都 乘 以 0.5， 然 后 再 看 看 最 后 3 个 数 。 
O 导入 精度 和 性 能 都 比较 高 的 计时 器 《Python 3.3 及 更 新 的 版 本 中 都 有 


这 个 库 ) o 


O 把 每 个 元 素 都 除 以 3， 可 以 看 到 处 理 1000 万 个 浮 点 数 所 需 的 时 间 还 
不 足 40 BERD 


@ 把 数组 存 入 后 缀 为 .npy 的 二 进 制 文件 。 


O 将 上 面 的 数据 导入 到 另外 一 个 数组 里 ， 这 次 load 方法 利用 了 一 种 叫 
内 存 映 射 的 机 制 ， 它 让 我 们 在 内 存 不 足 的 情况 下 仍然 可 以 对 数组 做 切 


O 把 数组 里 每 个 数 乘 以 6 之 后 ， 再 检视 一 下 数组 的 最 后 3 个 数 。 


™ 


NumPy 和 SciPy 的 安装 可 能 会 比较 费劲 。 在 “Installing the SciPy 
Stack” Chttp://www.scipy.org/install.html) 页 面 ，SciPyorg 建议 找 一 
个 科学 计算 Python 的 分 发 渠道 帮忙 ， 比 如 Anacoda, Enthought 
Canopy、WinPython， 等 等 。 常 见 的 GNU/Linux 版 本 的 用 户 应 该 可 
以 在 他 们 上 自己 的 包 管 理 系统 中 找到 NumPy 和 SciPy。 例 如 ， 在 
Debian 或 者 Ubuntu 上 面 ， 用 户 可 以 通过 下 面 的 命令 一 键 安装 : 


$ sudo apt-get install python-numpy python-scipy 


以 上 的 内 容 仅仅 是 九 牛 一 毛 。NumPy 和 SciPy 都 是 异常 强大 的 库 ， 也 是 
其 他 一 些 很 有 用 的 工具 的 基石 。Pandas Chttp://pandas.pydata.org) 和 
Blaze Chttp://blaze.pydata.org) 数据 分 析 库 就 以 它们 为 基础 ， 提 供 了 高 效 
的 且 能 存储 非 数 值 类 数据 的 数组 类 型 ， 和 读 写 常见 数据 文件 格式 〔 例 如 
csv、xls、SQL 转 储 和 HDF5)〉 的 功能 。 因 此 ， 要 详细 介绍 NumPy 和 
SciPy 的 话 ， 不 写成 几 本 书 是 不 可 能 的 。 虽然 本 书 不 在 此 列 ， 但 是 如 果 
要 对 Python 的 序列 类 型 做 一 个 概览 ， 恐 怕 没 有 人 能 忽略 NumPy。 


在 介绍 完 届 平 序列 (包括 标准 数组 和 NumPy 数组 ) 之 后 ， 让 我 们 把 目 
光 投 向 Python 中 可 以 取代 列表 的 另外 一 种 数据 结构 : 队列 。 


2.9.4 双 回 队列 和 其 他 形式 的 队列 


利用 .append 和 .pop 方法， 我 们 可 以 把 列表 当 作 栈 或 者 队列 来 用 ( 比 

W, JE .append 和 .pop(@) 合 起 来 用 ， 束 能 模拟 栈 的 “先进 先 出 ”的 特 

点 ) 。 但 是 删除 列表 的 第 一 个 元 素 〈 抑 或 是 在 第 一 个 元 素 之 前 添加 一 个 

因为 这 些 操作 会 牵扯 到 移动 列表 里 的 所 
TUR o 


collections.deque 类 《双向 队列 ) 是 一 个 线程 安全 、 可 以 快速 从 两 
端 添加 或 者 删除 元 素 的 数据 类 型 。 而 且 如 果 想 要 有 一 种 数据 类 型 来 存 
放 “ 最 近 用 到 的 几 个 元 素 "，deque 也 是 一 个 很 好 的 选择 。 这 是 因为 在 新 
如 一 个 双 问 队列 的 时 候 ， 你 可 以 指定 这 个 队列 的 大 小 ， 如 果 这 个 队列 满 
员 了 ， 还 可 以 从 反 辣 端 删 除 过 期 的 元 素 ， 然 后 在 尾 端 添加 新 的 元 素 。 示 
例 2-23 中 有 几 个 双向 队列 的 典型 操作 。 


示例 2-23 使 用 双 癌 队列 


>>> from collections import deque 

>>> dq = deque(range(10), maxlen=10) 

>>> dq 

deque([@, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10) 
>>> dq.rotate(3) @ 

>>> dq 

deque([7, 8, 9, ©, 1, 2, 3, 4, 5, 6], maxlen=10@) 
>>> dqg.rotate(-4) 

>>> dq 

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, ©], maxlen=10) 
>>> dq.appendleft(-1) © 

>>> dq 

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=1@) 
>>> dq.extend([11, 22, 33]) © 

>>> dq 

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10) 
>>> dq.extendleft([10, 20, 30, 40]) © 

>>> dq 

deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10) 


Q maxlen 是 一 个 可 选 参数 ， 代 表 这 个 队列 可 以 容纳 的 元 素 的 数量 ， 而 


且 一 旦 设 定 ， 这 个 属性 就 不 能 修改 了 。 


O 队列 的 旋转 操作 接受 一 个 参数 n， 当 n > 68 时， 队列 的 最 右边 的 7 
个 元 素 会 被 移动 到 队列 的 左边 。 当 n < 8 时 ， 最 左边 的 nn 个 元 素 会 被 
移动 到 右边 


O 当 试图 对 一 个 已 满 (len(d) == d.maxlen) 的 队列 做 尾部 添加 操作 
它 头 部 的 元 素 会 被 删除 掉 。 注 意 在 下 一 行 里 ， 元 素 © 被 删除 


O 在 尾部 添加 3 个 元 素 的 操作 会 挤 掉 -1、1 和 2。 


O extendleft(iter) 方法 会 把 迭代 器 里 的 元 素 逐 个 添加 到 双向 队列 
的 左边 ， 因 此 迭代 器 里 的 元 素 会 逆序 出 现在 队列 里 。 


表 2-3 总结 了 列表 和 双向 队列 这 两 个 类 型 的 方法 (object 类 包含 的 方 
法 除外 ) 。 


双 回 队列 实现 了 大 部 分 列表 所 拥有 的 方法 ， 也 有 一 些 额外 的 符合 自身 设 

计 的 方法 ， 比 如 说 popleft 和 rotate。 但 是 为 了 实现 这 些 方法 ， 双 向 

队列 也 付出 了 一 些 代 价 ， 从 队列 中 间 删 除 元 素 的 操作 会 慢 一 些 ， 因 为 它 
只 对 在 头 尾 的 操作 进行 了 优化 。 


append 和 popleft 都 是 原子 操作 ， 也 就 说 是 deque 可 以 在 多 线程 程序 
中 安全 地 当 作 先进 先 出 的 栈 使 用 ， 而 使 用 者 不 需要 担心 资源 锁 的 问题 。 


表 2-3: 列表 和 双 癌 队列 的 方法 〈 不 包括 由 对 象 实 现 的 方法 ) 


A 双向 队 
列 


添加 一 个 元 素 到 最 右 侧 (到 最 后 一 个 元 素 之 


s.append(e) 。 。 Ja) 


S i P (到 第 一 
a 
m H peo 
pap pee 
=e FE pe O 


s.extend(i) KARIA i 中 的 元 素 添 加 到 尾部 


s.extendleft(i) 将 可 和 迭代 对 象 ; 中 的 元 素 添加 到 头 部 


s.insert(p, e) 在 位 于 p 的 元 素 之 前 插入 元 素 e 


s.__iter__() 


s.__len__() ° ° len(s)， 序列 的 长 度 


ais 
EE eee 
emo 移 除 第 一 个 元 素 并 返回 它 的 值 

e H p 


e Ep p 
eea Ep ere 
row | 把 n PARAMAR — imt BI F — Sit 
s.__setitem__(p, e) T s[p] = e， 把 位 于 p MAIN CR ËR e 


ee ac ly 就 地 排序 序列 ， 可 选 参数 有 key 和 reverse 


* 第 13 章 会 讲 反 向 运算 符 。 


# a_list.pop(p) 这 个 操作 只 能 用 于 列表 ， 双 向 队列 的 这 个 方法 不 接收 参数 。 


除了 deque 之 外 ， 还 有 些 其 他 的 Python 标准 库 也 有 对 队列 的 实现 。 


queue 


提供 了 同步 (线程 安全 ) 类 Queue. LifoQueue 和 
PriorityQueue， 不 同 的 线程 可 以 利用 这 些 数据 类 型 来 交换 信息 。 这 三 
个 类 的 构造 方法 都 有 一 个 可 选 参数 maxsize， 它 接收 正 整 数 作 为 输入 
值 ， 用 来 限定 队列 的 大 小 。 但 是 在 满员 的 时 候 ， 这 些 类 不 会 扔 挥 旧 的 元 
素来 腾 出 位 置 。 相 反 ， 如 果 队 列 满 了 ， 它 就 会 被 锁 住 ， 直 到 男 外 的 线程 
a eee 了 位 置 。 这 一 特性 让 这 些 类 很 适合 用 来 控制 活跃 
线程 的 数量 。 


multiprocessing 


这 个 包 实 现 了 自己 的 Queue， 它 跟 queue.Queue 类 似 ， 是 设计 给 
进程 间 通 信用 的 。 同 时 还 有 一 个 专门 的 
multiprocessing.JoinableQueue 类 型 ， 可 以 让 任务 管理 变 得 更 方 
便 。 


asyncio 


Python 3.4 新 提供 的 包 ， 里 面 有 
Queue, LifoQueue, PriorityQueue 和 JoinableQueue， 这 些 类 受 
到 queue Fl multiprocessing 模块 的 影响 ， 但 是 为 异步 编程 里 的 任务 
管理 提供 了 专门 的 便利 。 


heapq 


跟 上 面 三 个 模块 不 同 的 是 ，heapq 没有 队列 类 ， 而 是 提供 了 
heappush 和 heappop 方法 ， 让 用 户 可 以 把 可 变 序 列 当 作 堆 队列 或 者 优 
先 队列 来 使 用 。 


到 了 这 里 ， 我 们 对 列表 之 外 的 类 的 介绍 也 就 告 一 段落 了 ， 是 时 候 阶段 性 
地 总 结 一 下 对 序列 类 型 的 探索 了 。 注 意 我 们 还 没有 提 到 str CFFE) 
和 二 进 制 序列 ， 它 们 将 在 第 4 章 中 专门 介绍 。 


2.10 本章 小 结 


要 想 写 出 准确 、 高 效 和 地 道 的 Python 代码 ， 对 标准 库 里 的 序列 类 型 的 掌 
握 是 不 可 或 缺 的 。 


Python 序列 类 型 最 常见 的 分 类 就 是 可 变 和 不 可 变 序 列 。 但 男 外 一 种 分 类 
方式 也 很 有 用 ， 那 束 是 把 它们 分 为 局 平 序列 和 容器 序列 。 前 者 的 体积 

小 、 速 度 更 快 而 且 用 起 来 更 简单 ， 但 是 它 只 能 保存 一 些 原子 性 的 数据 ， 
比如 数字 、 字 符 和 字 节 。 容 器 序列 则 比较 灵活 ， 但 是 当 容 器 厅 列 过 到 可 
变 对 象 时 ， 用 户 残 需 要 格外 小 心 了 ， 因 为 这 种 组 合 时 常会 搞 出 一 些 “ 意 
i Seat are a 
AE IEA o 


列表 推导 和 生成 器 表达 式 则 提供 了 灵活 构建 和 初始 化 序列 的 方式 ， 这 两 
个 工具 都 异 第 强大 。 如 果 你 还 不 能 熟练 地 使 用 它们 ， 可 以 专门 花 时 间 练 
习 一 下 。 它 们 其 实 不 难 ， 而 且 用 起 来 让 人 上 漓 。 


元 组 在 Python 里 扮演 了 两 个 角色 ， 它 既 可 以 用 作 无 名 称 的 字段 的 记录 ， 
又 可 以 看 作 不 可 变 的 列表 。 当 元 组 被 当 作 记录 来 用 的 时 候 ， 拆 包 是 最 安 
全 可 靠 地 从 元 组 里 提取 不 同 字 段 信 息 的 方式 。 新 引入 的 * 句法 让 元 组 拆 
包 的 便利 性 更 上 一 层 楼 ， 让 用 户 可 以 选择 性 忽略 不 需要 的 字段 。 具 名 元 
组 也 已 经 不 是 一 个 新 概念 了 ， 但 它 似 乎 没有 受到 应 有 的 重视 。 就 像 普 通 
元 组 一 样 ， 具 名 元 组 的 实例 也 很 节省 空间 ， 但 它 同时 提供 了 方便 地 通过 
名 字 来 获取 元 组 各 个 字段 信息 的 方式 ， 另 外 还 有 个 实用 的 ._ asdict() 
方法 来 把 记录 变 成 OrderedDict 类 型 。 


Python 里 最 受 欢 迎 的 一 个 语言 特性 就 是 序列 切片 ， 而 且 很 多 人 其 实 还 没 
完全 了 解 它 的 强大 之 处 。 比 如 ， 用 户 自 定义 的 序列 类 型 也 可 以 选择 文 持 
NumPy 中 的 多 维 切 片 和 省 略 (...) 。 另 外 ， 对 切片 赋值 是 一 个 修改 可 
变 序 列 的 捷径 。 


重复 拼接 seq * n 在 正确 使 用 的 前 提 下 ， 能 让 我 们 方便 地 初始 化 含有 
不 可 变 元 素 的 多 维 列表 。 增 量 赋值 += 和 *= 会 区 别 对 待 可 变 和 不 可 变 序 
列 。 在 过 到 不 可 变 序列 时 ， 这 两 个 操作 会 在 背后 生成 新 的 序列 。 但 如 末 
被 赋值 的 对 象 是 可 变 的 ， 那 么 这 个 序列 会 就 地 修改 一 一 然而 这 也 取决 于 


序列 本 身 对 特殊 方法 的 实现 。 


序列 的 sort 方法 和 内 置 的 sorted 函数 虽然 很 灵活 ， 但 是 用 起 来 都 不 
难 。 这 两 个 方法 都 比较 灵活 ， 是 因为 它们 都 接受 一 个 函数 作为 可 选 参数 
来 指定 排序 算法 如 何 比较 大 小 ， 这 个 参数 就 是 key SAL. key 还 可 以 被 
用 在 min 和 max 函数 里 。 如 果 在 插入 新 元 素 的 同时 还 想 保持 有 序 序列 
的 顺序 ， 那 么 需要 用 到 bisect.insort. bisect.bisect 的 作用 则 是 
快速 查找 。 


除了 列表 和 元 组 ，Python 标准 库 里 还 有 array.array。 另 外 ， 虽 然 
NumPy 和 SciPy 都 不 是 Python 标准 库 的 一 部 分 ， 但 稍微 学 习 一 下 它们 ， 
会 让 你 在 处 理 大 规模 数值 型 数据 时 如 有 神助 。 


本 童 末尾 介绍 了 collections .deque 这 个 类 型 ， 它 具有 灵活 多 用 和 线 
程 安全 的 特性 。 表 2-3 将 它 和 列表 的 API 做 了 比较 。 本 章 最 后 也 提 及 了 
一 些 标准 库 中 的 其 他 队列 类 型 的 实现 。 


2.11 延伸 阅读 


David Beazley 和 Brian K. Jones 的 《Python Cookbook ( 3 hk) FX 
版 》 一 书 的 第 1 Be Ane” A IR SEPT Fe]. Foe 
是 “1.11 对 切片 命名 ”这 一 部 分 ， 从 中 我 学 会 把 切片 赋值 给 变量 以 改善 可 
读 性 ， 本 书 的 示例 2-11 对 此 做 了 说 明 。 


《Python Cookbook (28 2 版 ) 中 文 版 》 用 的 是 Python 2.4， 但 其 中 大 部 
分 的 代码 都 可 以 运行 在 Python 3 中 。 该 书 第 $ 章 和 第 6 章 的 大 部 分 内 容 
都 是 跟 序 列 有 关 的 。 该 书 的 编者 有 Alex Martelli, Anna Martelli 
Ravenscroft 和 David Ascher， 另 外 还 有 十 几 位 Python 程序 员 为 内 容 做 出 
了 贡献 。 第 3 版 则 是 从 零 开 始 完全 重 写 的 ， 书 的 重点 也 放 在 了 Python 的 
语义 上 ， 特 别 是 Python 3 带 来 的 那些 变化 ， 而 不 是 像 第 2 版 那样 把 重点 
放 在 如 何 解雇 实际 问题 上 上。 虽然 第 2 版 中 有 些 内 容 已 经 不 是 最 优 解 了 ， 
但 是 我 仍然 推荐 把 这 两 个 版 本 都 读 一 读 。 


Python 官方 网 站 中 的 “Sorting HOW TO” 一 文 
(https://docs.python.org/3/howto/sorting.html〉 通 过 几 个 例子 讲解 了 
sorted 和 list.sort 的 高 级 用 法 。 


“PEP 3132 — Extended Iterable 

Unpacking” Chttps://www.python.org/dev/peps/pep-3132/) 算得 上 是 使 用 
*extra 人 句法 进行 平行 赋值 的 权威 指南 。 如 果 你 想 舰 探 一 下 Python A 
的 开发 过 程 ，“Missing *-unpacking 

generalizations” (http://bugs.python.org/issue2292) 是 一 个 bug 追踪 器 ， 里 
面 有 很 多 关于 如 何 更 广泛 地 使 用 可 迭代 对 象 拆 包 的 讨论 和 提议 。“PEP 
448—Additional Unpacking 

Generalizations” Chttps://www.python.org/dev/peps/pep-0448/) 就 是 这 些 
就 在 我 写 这 本 书 的 时 候 ， 这 些 改 动 也 许 会 被 集成 在 
Python 3.5 中 。 


Eli Bendersky 的 博客 文章 “Less Copies in Python with the Buffer Protocol 
and memoryviews” Chttp://eli.thegreenplace.net/2011/11/28/less-copies-in- 
python-with-the-buffer-protocol-and-memoryviews/) 里 有 一 些 关 于 
memoryview 的 小 教程 。 


市 面 上 关于 NumPy 的 书 多 到 数 不 清 ， 其 中 有 些 书 的 名 字 里 都 不 
ean) :这 几 个 字 ， 例 如 Wes McKinney 的 《利用 Python 进行 数据 分 
Ss 


科学 家 尤其 钟爱 NumPy 和 SciPy 的 强大 以 及 与 Python 的 交互 式 控制 台 
的 结合 ， 于 是 他 们 专门 开发 了 Pythons Python 是 Python K rriz S hI 
强大 蔡 代 品 ， 而 且 它 还 附带 了 图 形 界面 、 内 和 伦 的 图 表演 染 、 文 学 编程 文 
持 《〈 代 人 码 和 文本 互动 ) 和 PDF 演 染 。 而 这 些 互动 多 媒体 对 话 还 能 以 
IPython 记事 本 的 形式 在 网 络 上 分 享 一 一 详 见 “IPython 记事 

Æ” Chttp://ipython.org/notebook.html) 中 的 截屏 和 视频 。IPython Æ 2012 
年 非常 流行 ， 背 后 的 开发 者 收 到 了 一 笔 1 150 000 美元 的 捐赠 。 这 笔 来 
自 Sloan 基金 的 捐赠 是 专门 用 来 文 持 加 州 大 学 伯克利 分 校 的 开发 者 的 ， 
好 让 他 们 能 在 2013—2014 年 期 间 按 计划 实现 Python 的 扩展 。 


Python 标准 库 里 的 “8.3. collections 一 Container 
datatypes” (https:/docs.python.org/3/librarycollections.html ) 里 有 一 些 关 
于 双向 队列 和 其 他 集合 类 型 的 使 用 技巧 。 


Python 里 的 范围 (range〉 和 切片 都 不 会 返回 第 二 个 下 标 所 指 的 元 素 ， 
Edsger W. Dijkstra 在 一 个 很 短 的 备 瑟 录 里 为 这 一 惯例 做 了 最 好 的 辩护 。 
这 篇 名 为 “Why Numbering Should Start at 

Zero” Chttp://www.cs.utexas.edu/users/EWD/transcriptions/EWD08xx/EWD8 
He RL ER TM SA SH, (ACER Python 的 关系 在 于 ， 
Dijkstra 教授 严肃 又 活 泼 地 解释 了 为 什么 2，3，...，12 这 个 序列 应 该 表 
达 为 2<i < 13。 备 态 录 对 其 他 所 有 的 表达 习惯 都 作出 了 反驳 ， 同 时 还 
说 明了 为 什么 不 能 让 用 户 上 自行 决定 表达 习惯 。 虽 然 文章 的 标题 是 关于 基 
于 0 的 下 标 ， 但 是 整 篇 文章 其 实 都 在 说 为 什么 'ABCED' [1:3] 的 结果 应 
该 是 'BC' 而 不 是 'BCD'， 以 及 为 什么 2，3，...，12 应 该 写作 
range(2, 13). (顺便 说 一 下 ， 这 份 备 护 录 是 手写 的 ， 但 是 字 写 得 干 
净 漂 亮 。 如 果 有 人 就 此 创作 Dijkstra 字体 ， 我 应 该 会 买 一 份 。) 


杂谈 
元 组 的 本 质 
2012 年 ， 我 在 PyCon US 上 贴 了 一 张 关 于 ABC i A Set. Guido 


在 开创 Python 语言 之 前 曾 做 过 ABC 解释 器 方面 的 工作 ， 因 此 他 也 
去 看 了 我 的 墙报 。 我 们 聊 了 不 少 ， 而 且 都 担 到 了 ABC 里 的 


compounds 284. compounds 算得 上 是 Python THAJ SH, “EBL 
支持 平行 赋值 ， 又 可 以 用 在 字典 Cdict) 里 作为 合成 键 (ABC 里 
对 应 字典 的 类 型 是 表格 ， 即 table) 。 但 compounds 不 属于 序 
列 ， 它 不 是 迭代 类 型 ， 也 不 能 通过 下 标 来 提取 某 个 值 ， 更 不 用 说 切 
片 了 。 要 么 把 compounds 对 象 当 作 整 体 来 用 ， 要 么 用 平行 赋值 把 
里 面 所 有 的 字段 都 提取 出 来 ， 仪 此 而 已 。 


我 跟 Guido 说 ， 上 面 这 些 限制 让 compounds 的 作用 变 得 很 明确 ， 
它 只 能 用 作 没 有 字段 名 的 记录 。Guido 回应 说 ，Python 里 的 元 组 能 
当 作 序列 来 使 用 ， 其 实 是 一 个 取 巧 的 实现 。 


这 其 实体 现 了 Python 的 实用 主义 ， 而 实用 主义 是 Python 较 之 ABC 
更 好 用 也 更 成 功 的 原因 。 从 一 个 语言 开发 人 员 的 角度 来 看 ， 让 元 组 
具有 序列 的 特性 可 能 需要 下 点 功夫 ， 结 果 则 是 设计 出 了 一 个 概念 上 
并 不 如 compounds 纯粹 ， 却 更 灵活 的 元 组 一 一 它 甚至 能 当成 不 可 
变 的 列表 来 使 用 。 


说 真 的 ， 不 可 变 列 表 这 种 数据 类 型 在 编程 语言 里 真 的 非常 好 用 《其 
实 frozenlist 这 个 名 字 更 酷 ) ， 而 Python 里 这 种 类 型 其 实 束 是 一 
个 行为 很 像 序 列 的 元 组 。 


“优雅 是 简约 之 父 ” 


很 久 以 前 ，*extra 这 种 语法 就 在 函数 里 用 来 把 多 个 元 素 赋 值 给 一 
个 参数 了 。 (我 有 本 出 版 于 1996 年 的 讲 Python 1.4 的 书 ， 里 面 就 提 
到 了 这 个 用 法 。) Python 1.6 或 更 新 的 版 本 里 ， 这 个 语法 在 函数 定 
义 里 用 来 把 一 个 可 迭代 对 象 拆 包 成 不 同 的 参数 ， 这 算是 跟 上 面 说 的 
那 种 用 法 互补 。 这 一 设计 直观 而 优雅 ， 并 且 取 代 了 Python 里 的 
apply 函数 。 如 今 到 了 Python3, *extra 这 个 写法 又 可 以 用 在 赋值 
表达 式 的 左 侧 ， 从 而 在 平行 赋值 里 接收 多 余 的 元 素 。 这 一 点 让 这 个 
本 来 就 很 实用 的 语法 锦上添花 。 


像 这 样 的 改进 一 个 接着 一 个 ， 让 Python 变 得 越 来 越 灵 活 ， 越 来 越 统 
一 ， 也 越 来 越 简单 。“ 优 雅 是 简约 之 父 ”(“Elegance begets 
simplicity”) 是 2009 年 在 芝加哥 的 PyCon 的 口号 ， 印 在 PyCon 的 T 
恤 上 ， 同 样 印 在 工 恤 上 的 还 有 Bruce Eckel 画 的 《 易 经 》 第 二 十 二 
卦 ， 即 贡 卦 的 卦 象 。 贡 代表 着 典雅 高 贯 。 这 也 是 我 最 喜欢 的 一 件 


PyCon 的 工 恤 。 
扁平 序列 和 容器 序列 


为 了 解释 不 同 序 列 类 型 里 不 同 的 内 存 模型 ， 我 用 了 容 右 序列 和 局 
平 序列 这 两 个 说 法 。 其 中 “容器 ”一 词 来 自 “Data Model” 文 档 

(https://docs.python.org/3/reference/datamodel.html#objects-values- 
and-types) : 


有 些 对 象 里 包含 对 其 他 对 象 的 引用 ;这 些 对 象 称 为 容器 。 


因此 ， 我 特别 使 用 了 “容器 序列 ”这 个 词 ， 因 为 Python 里 有 是 容器 但 
并 非 序列 的 类 型 ， 比 如 dict 和 set。 容 器 序列 可 以 挫 套 着 使 用 ， 
因为 容器 里 的 引用 可 以 针对 包括 上 自身 类 型 在 内 的 任何 类 型 。 


与 此 相反 ， 局 平 序 列 因为 只 能 包含 原子 数据 类 型 ， 比 如 整数 、 浮 点 
数 或 字符 ， 所 以 不 能 馈 套 使 用 。 


称 其 为 “局 平 序列 ”是 因 为 我 希望 有 个 名 词 能 够 跟 * 容 需 序 列 ” 形 成 对 
比 。 这 个 词 是 我 自己 发 明 的 ， 专 门 用 来 指 代 Python 中 “不 是 容器 序 
列 ? 的 序列 ， 在 其 他 地 方 你 可 能 找 不 到 这 样 的 用 法 。 如 有 果 这 个 词 出 
现在 维基 百科 上 面 的 话 ， 我 们 需要 给 它 加 上 “原创 研究 ”标签 。 我 更 
倾 加 于 把 这 类 词 称 作 “ 自 创 名 词 "”， 希望 它 能 对 你 有 所 帮助 并 为 你 所 
用 。 


混合 类 型 列表 


Python 入 门 教材 往往 会 强调 列表 古 可 以 同时 容纳 不 同类 型 的 元 系 
的 ， 但 是 实际 上 这 样 做 并 没有 什么 特别 的 好 处 。 我 们 之 所 以 用 列表 
来 存放 东西 ， 是 期 竺 在 稍 后 使 用 它 的 时 候 ， 其 中 的 元 素 有 一 些 通用 
的 特性 《“ 比 如 ， 列 表 里 存 的 是 一 类 可 以 “ 哌 哌 ? 叫 的 动物 ， 那 么 所 有 
的 元 素 都 应 该 会 发 出 这 种 叫 声 ， 即 便 其 中 一 部 分 元 素 类 型 并 不 是 鸭 
F) 。 在 Python 3 中 ， 如 果 列 表 里 的 东西 不 能 比较 大 小 ， 那 么 我 们 
就 不 能 对 列表 进行 排序 : 


>>> 1 = [28, 14, "28", 5, '9', '1', By 6, '23', 19] 
>>> sorted(1) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 


TypeError: unorderable types: str() < int() | 


元 组 则 恰恰 相反 ， 它 经 常用 来 存放 不 同类 型 的 的 元 素 。 这 也 符合 它 
的 本 质 ， 元 组 束 是 用 作 存 放 彼 此 之 间 没 有 关系 的 数据 的 记录 。 


key 参数 很 妙 


list.sort、sorted、max 和 min 函数 的 key 参数 是 一 个 很 棒 的 
设计 。 其 他 语言 里 的 排序 函数 需要 用 户 提 供 一 个 接收 两 个 参数 的 比 
较 函 数 作为 参数 ， 像 是 Python 2 里 的 cmp(a，b) 。 用 key 参数 能 
把 事情 变 得 简单 且 高 效 。 说 它 更 简单 ， 是 因为 只 需要 提供 一 个 单 参 
数 函 数 来 提取 或 者 计算 一 个 值 作为 比较 大 小 的 标准 即 可 ， 而 Python 
2 的 这 种 设计 则 需要 用 户 写 一 个 返回 值 是 一 1、0 或 者 1 的 双 参 数 函 
数 。 说 它 更 高 效 ， 是 因为 在 每 个 元 素 上 ，Kkey 函数 只 会 被 调用 一 
次 。 而 双 参 数 比 较 函 数 则 在 每 一 次 两 两 比较 的 时 候 都 会 被 调用 。 诚 
然 ， 在 排序 的 时 候 ，Python 总 会 比较 两 个 键 (key) ， 但 是 那 一 阶 
段 的 计算 会 发 生 在 C 语言 那 一 层 ， 这 样 会 比 调用 用 户 自 定义 的 
Python 比较 函数 更 快 。 


男 外 ，key 参数 也 能 让 你 对 一 个 泥 有 数字 字符 和 数值 的 列表 进行 排 
序 。 你 只 需要 决定 到 展 是 把 字符 看 作 数值 ， 还 是 把 数值 看 作 字 符 : 


>>> 1 = [28, 14, '28', 5, '9' 
>>> sorted(1, key=int) 
[@, '1', 5, 6, '9', 14, 19, ' 


>>> sorted(1, key=str) 
[Ə, '1', 14, 19, '23', 28, ' 


Oracle, Google 和 Timbot 之 间 的 八卦 


sorted 和 list.sort 背后 的 排序 算法 是 Timsort， 它 是 一 种 自 适 
应 算法 ， 会 根据 原始 数据 的 顺序 特点 交 葵 使 用 插入 排序 和 归并 排 
序 ， 以 达到 最 佳 效率 。 这 样 的 算法 被 证 明 是 很 有 效 的 ， 因 为 来 自 真 
实 世 界 的 数据 通常 是 有 一 定 的 顺序 特点 的 。 维 基 百 科 上 有 一 个 条 目 
是 关于 这 个 算法 的 Chttps://en.wikipedia.org/wiki/Timsort) 。 


Timsort 在 2002 年 的 时 候 首次 用 在 CPython F; 自 2009 年 起 ，Java 


和 Android 也 开始 使 用 这 个 算法 。 后 面 这 个 时 间 点 如 此 广为人知 ， 
是 因为 在 Google 对 Sun 的 侵权 案 中 ， Oracle 把 Timsort 中 的 一 些 相 
关 代 码 当 作 了 明堂 证 供 。 详 见 “ Oracle v. Google—Day 14 Filings” 一 
X Chttp://www.groklaw.net/articlebasic.php? 
story=20120510205659643) 。 


Timsort 的 创始 人 是 TimPeters， 他 同时 也 是 一 位 高 产 的 Python 核心 
开发 者 。 由 于 他 贡献 了 太 多 代码 ， 以 至 于 很 多 人 都 说 他 其 实 是 人 工 
智能 ， 他 也 就 有 了 “Timbot" 这 一 绰号 。 在 “Python 

Humor” Chttps://www.python.org/doc/humor/#id9) 里 可 以 读 到 相关 的 
故事 。Tim 也 是 “Python 24%” (import this) 的 作者 。 


第 3 章 字典 和 集合 


字典 这 个 数据 结构 活跃 在 所 有 Python 程序 的 背后 ， 即 便 你 的 源码 里 
并 没有 直接 用 到 它 。 


A. M. Kuchling 

《代码 之 美 》 第 18 章 “Python 的 字典 类 : 如 何 打造 全 能 战士 ” 
dict 类 型 不 但 在 各 种 程序 里 广泛 使 用 ， 它 也 是 Python 语言 的 基石 。 模 
块 的 命名 空间 、 实 例 的 属性 和 函数 的 关键 字 参 数 中 都 可 以 看 到 字典 的 里 
影 。 跟 它 有 关 的 内 置 函数 都 在 ”builtins . dict 模块 中 。 


正 是 因为 字典 至 关 重 要 ，Python 对 它 的 实现 做 了 高 度 优 化 ， 而 散 列 表 则 
是 字典 类 型 性 能 出 众 的 根本 原因 。 


RE (set) 的 实现 其 实 也 依赖 于 散 列 表 ， 因 此 本 章 也 会 讲 到 它 。 反 过 
来 次， 想 要 进一步 理解 集合 和 字典 ， 束 得 先 理 解散 列表 的 原理 。 


本 章 内 容 的 大 纲 如 下 : 
常见 的 字典 方法 

如 何 处 理 查 找 不 到 的 键 
标准 库 中 dict 类 型 的 变种 
set 和 frozenset 类 型 
散 列表 的 工作 原理 


散 列 表 带 来 的 潜在 影响 (什么 样 的 数据 类 型 可 作为 键 、 不 可 预知 的 
顺序 ， 等 等 ) 


3.1 泛 映 射 类 型 


collections.abc 模块 中 有 Mapping 和 MutableMapping 这 两 个 抽象 
基 类 ， 它 们 的 作用 是 为 dict 和 其 他 类 似 的 类 型 定义 形式 接口 〈 在 
Python 2.6 到 Python 3.2 的 版 本 中 ， 这 些 类 还 不 属于 co1lections .abc 
模块 ， 而 是 隶属 于 collections ih) 。 详 见 图 3-1. 


H 
C omamer MutableMapping 
contains 


—getitem _ setitem 
__ contains __ eee eee 
_ delitem _ 


a clear 
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__fter__ pop 
popitem 
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图 3-1: collections.abc 中 的 MutableMapping 和 它 的 超 类 的 
UML 类 图 (第 头 从 子 类 指 问 超 类 ， 抽 象 类 和 抽象 方法 的 名 称 以 斜体 


ZR) 


然而 ， 非 抽象 映射 类 型 一 般 不 会 直接 继承 这 些 抽象 基 类 ， 它 们 会 直接 对 
dict 或 是 collections.User.Dict 进行 扩展 。 这 些 抽 象 基 类 的 主要 
作用 是 作为 形式 化 的 文档 ， 它 们 定义 了 构建 一 个 映射 类 型 所 需要 的 最 基 
本 的 接口 。 然 后 它们 还 可 以 跟 isinstance 一 起 被 用 来 判定 某 个 数据 是 
不 是 广义 上 的 映射 类 型 : 


>>> my_dict = {} 
>>> isinstance(my_dict, abc.Mapping) 


True 


这 里 用 isinstance 而 不 是 type 来 检查 某 个 参数 是 否 为 dict 类 型 ， 
因为 这 个 参数 有 可 能 不 是 dict， 而 是 一 个 比较 另类 的 映射 类 型 。 


标准 库 里 的 所 有 映射 类 型 都 是 利用 dict 来 实现 的 ， 因 此 它们 有 个 共同 


的 限制 ， 即 只 有 可 散 列 的 数据 类 型 才能 用 作 这 些 映 射 里 的 键 〈 只 有 键 有 
这 个 要 求 ， 值 并 不 需要 是 可 散 列 的 数据 类 型 ) 。 


什么 是 可 散 列 的 数据 类 型 


在 Python 词汇 表 Chttps://docs.python.org/3/glossary.html#term- 
hashable〉 中 ， 关 于 可 散 列 类 型 的 定义 有 这 样 一 段 话 : 


如 果 一 个 对 象 是 可 散 列 的 ， 那 么 在 这 个 对 象 的 生命 周期 中 ， 它 
的 散 列 值 是 不 变 的 ， 而 且 这 个 对 象 需 要 实现 _hash_() 方 
Eo FPA MIM RERA __qe__() 方法 ， 这 样 才能 跟 其 他 
键 做 T eee ae 那么 它们 的 散 列 值 
一 定 是 一 样 的 .…… 


原子 不 可 变数 据 类 型 (str、bytes 和 数值 类 型 ) 都 是 可 散 列 类 
型 ，frozenset 也 是 可 散 列 的 ， 因 为 根据 其 定义 ，frozenset 里 
只 能 容纳 可 散 列 类 型 。 元 组 的 话 ， 只 有 当 一 个 元 组 包含 的 所 有 元 素 
都 是 可 散 列 类 型 的 情况 下 ， 它 才 是 可 散 列 的 。 来 看 下 面 的 元 组 
tt. tl 和 tf: 


>>> tt = (1, 2, (30, 40)) 

>>> hash(tt) 

8027212646858338501 

>>> tl = (1, 2, [30, 40]) 

>>> hash(t1) 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
TypeError: unhashable type: 'list' 
>>> tf = (1, 2, frozenset([30, 40])) 
>>> hash(tf) 

-4118419923444501110 


By 直到 我 写 这 本 书 的 时 候 ，Python 词汇 表 
Chttps://docs.python.org/3/glossary.html#term-hashable) 里 还 在 

说 “Python 里 所 有 的 不 可 变 类 型 都 是 可 散 列 的 "。 这 个 说 法 其 实 是 不 
准确 的 ， 比 如 虽然 元 组 本 号 是 不 可 变 序 列 ， 它 里 面 的 元 又 可 能 是 其 
他 可 变 类 型 的 引用 。 


一 般 来 讲 用 户 自 定义 的 类 型 的 对 象 都 是 可 散 列 的 ， 散 列 值 就 是 它们 
的 id() 函数 的 返回 值 ， 所 以 所 有 这 些 对 象 在 比较 的 时 候 都 是 不 相 
等 的 。 如 末 一 个 对 象 实现 了 > 方法 ， 并 且 在 方法 中 用 到 了 这 
个 对 象 的 内 部 状态 的 话 ， 那 么 只 有 当 所 有 这 些 内 部 状态 都 是 不 可 变 
的 情况 下 ， 这 个 对 象 才 是 可 散 列 的 。 


根据 这 些 定义 ， 字 典 提供 了 很 多 种 构造 方法 ，“Built-in 
2 (https://docs.python.org/3/library/stdtypes.html#mapping-types-dict) 
这 个 页 面 上 有 个 例子 来 说 明 创 建 字典 的 不 同方 式 : 


dict(one=1, two=2, three=3) 

{'one': 1, 'two': 2, 'three': 3} 
dict(zip(['one', 'two', 'three'], [1, 2, 3])) 
dict([('two', 2), (‘'one', 1), ('three', 3)]) 
dict({'three': 3, ‘one': 1, 'two': 2}) 
= b = c == d = e 


除了 这 些 字面 句法 和 灵活 的 构造 方法 之 外 ， 字 典 推导 (dict 
comprehension) 也 可 以 用 来 建造 新 dict， 详 见 下 一 


3.2 字典 推导 


目 Python 2.7 以 来 ， 列 表 推 导 和 生成 器 表达 式 的 概念 就 移植 到 了 字典 
上 ， 从 而 有 了 字典 推导 《后 面 还 会 看 到 集合 推导 ) 。 字 典 推导 
Cdictcomp) 可 以 从 任何 以 键 值 对 作为 元 系 的 可 迭代 对 象 中 构建 出 字 
典 。 示 例 3-1 就 展示 了 利用 字典 推导 可 以 把 一 个 装 满 元 组 的 列表 变 成 两 
个 不 同 的 字典 。 


示例 3-1 字典 推导 的 应 用 


>>> DIAL_CODES = [ 

Ees (86, 'China'), 
(91, 'India'), 
(1, 'United States'), 
(62, 'Indonesia'), 
(55, 'Brazil'), 
(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 
(7, 'Russia'), 


(81, 'Japan'), 


Sane ] 

>>> country_code = {country: code for code, country in DIAL_CODES} @ 

>>> country_code 

{'China': 86, ‘India’: 91, 'Bangladesh': 880, ‘United States': 1, 

"Pakistan': 92, 'Japan': 81, 'Russia': 7, ‘Brazil’: 55, 'Nigeria': 

234, ‘Indonesia’: 62} 

>>> {code: country.upper() for country, code in country_code.items() © 
if code < 66} 

{1: "UNITED STATES', 55: 'BRAZIL', 62: 'INDONESIA', 7: 'RUSSIA'} 


和 @ 一 个 承载 成 对 数据 的 列表 ， 它 可 以 直接 用 在 字典 的 构造 方法 中 。 
O 这 里 把 配 好 对 的 数据 左右 换 了 下 ， 国 家 名 是 键 ， 区 域 码 是 值 。 


全 跟 上 面相 反 ， 用 区 域 码 作为 键 ， 国 家 名 称 转换 为 大 写 ， 并 且 过 滤 掉 
区 域 码 大 于 或 等 于 66 的 地 区 。 


如 果 列 表 推 导 的 概念 已 经 为 你 所 熟知 ， 接 受 字 典 推导 应 该 不 难 。 如 果 你 
对 列表 推导 还 不 熟 ， 那 么 是 时 候 来 掌握 它 了 ， 因 为 字典 推导 的 表达 形式 


会 划 延 到 其 他 数据 类 型 中 。 
下 面 来 看 看 映 财 类 型 提供 的 API 的 全 景 


3.3 HOLA HR TE 


映射 类 型 的 方法 其 实 很 丰富 。 表 3-1 为 我 们 展示 了 
dict, defaultdict 和 OrderedDict 的 常见 方法 ， 后 面 两 个 数据 类 型 
是 dict 的 变种 ， 位 于 collections 模块 内 。 


表 3-1: dict、collections .defaultdict 和 


collections .0rderedDict 这 三 种 映射 类 型 的 方法 列表 〈 依 然 省 略 
了 继承 自 object 的 常见 方法 ) ;可 选 参数 以 [. ..] 表 示 


ee 
es E o 
一 He 


Æ __ missing _ 函数 中 被 调用 的 
~ 用 以 给 未 找到 的 元 素 设置 


H 


将 迭代 器 it 里 的 元 素 设 置 为 映射 
d.fromkeys(it， 里 的 键 ， 如 果 有 initial 参数 ， 
[initial]) 就 把 它 作为 这 些 键 对 应 的 值 CBR 

Wit 是 None) 


回 键 k 对 应 的 值 ， 如 果 字 典 里 


= 


d.get(k, 
[default ]) 


ala i 


d.move_to_end(k, 
[last]) 


d.pop(k, [defaul] 


d.popitem() 
d.__reversed__() 


d.setdefault(k, 
[default]) 


没有 键 k， 则 返回 None 或 者 


default 


让 字典 d 能 用 dik] WIH 
k 对 应 的 值 


返回 d 里 所 有 的 键 值 对 
获取 键 的 迭代 器 
获取 所 有 的 键 


可 以 用 len(d) 的 形式 得 到 字 
键 值 对 的 数量 


当 getitem _ 找 不 到 对 应 键 的 


时 候 ， 这 个 方法 会 被 调用 


把 键 为 k 的 元 素 移动 到 最 笔 前 或 
者 最 靠 后 的 位 置 (1ast 的 默认 值 


是 True) 


返回 键 k 所 对 应 的 值 ， 然 后 移 除 
这 个 键 值 对 。 如 果 没 有 这 个 键 ， 
返回 None 或 者 defaul 


随机 返回 一 个 键 值 对 并 从 字典 
BRE" 


回 倒序 的 键 的 迭代 需 


若 字 典 里 有 键 k， 则 把 它 对 应 的 值 
设置 为 default， 然 后 返回 这 个 
值 ， 若 无 ， 则 让 d[k] = 


default， 然 后 返回 default 


d.__setitem_(k, 实现 d[k] = v BRIE, JE k 对 应 的 
v) 值 设 为 v 


d.update(m, m 可 以 是 映射 或 者 键 值 对 迭代 


[**kargs]) 器 ， 用 来 更 新 d 里 对 应 的 条 目 


| | te 


* default_factory 并 不 是 一 个 方法 ， 而 是 一 个 可 调用 对 象 (calable) ， 它 的 值 在 
defaultdict 初始 化 的 时 候 由 用 户 设 定 。 


# OrderedDict.popitem() 会 移 除 字典 里 最 先 插 入 的 元 素 (先进 先 出 ) ， 同 时 这 个 方法 还 有 一 
个 可 选 的 last 参数 ， 若 为 真 ， 则 会 移 除 最 后 插入 的 元 素 (后进 先 出 )。 


上 面 的 表格 中 ，update 方法 处 理 参数 m 的 方式 ， 是 典型 的 “鸭子 类 
AY”, PRA CR m 是 否 有 keys 方法 ， 如 果 有 ， 那 么 update 函数 就 
把 它 当 作 映 射 对 象 来 处 理 。 人 否则 ， 函 数 会 退 一 步 ， 转 而 把 m 当 作 包含 了 
键 值 对 (key, value) 元 素 的 迭代 器 。Python 里 大 多 数 映射 类 型 的 构造 
方法 都 采用 了 类 似 的 逻辑 ， 因 此 你 既 可 以 用 一 个 映射 对 象 来 新 建 一 个 映 
eae (key, value) 元 素 的 可 迭代 对 象 来 初始 化 一 个 
映射 对 象 。 


在 映射 对 象 的 方法 里 ，setdefault 可 能 是 比较 微妙 的 一 个 。 我 们 虽然 
并 不 会 每 次 都 用 它 ， 但 是 一 旦 它 发 挥 作用 ， 束 可 以 节省 不 少 次 键 查 询 ， 
从 而 让 程序 更 高 效 。 如 果 你 对 它 还 不 熟悉 ， 下 面 我 会 通过 一 个 实例 来 讲 
解 它 的 用 法 。 


用 setdefault 处 理 找 不 到 的 键 


HFR d[k] 不 能 找到 正确 的 键 的 时 候 ，Python 会 抛 出 异常 ， 这 个 行为 
符合 Python 所 信奉 的 “快速 失败 ”哲学 。 也 许 每 个 Python 程序 员 都 知道 
可 以 用 d.get(k，default) 来 代替 d[k]， 给 找 不 到 的 键 一 个 默认 的 
返回 值 〈 这 比 处 理 KeyError 要 方便 不 少 ) 。 但 是 要 更 新 某 个 键 对 应 的 


值 的 时 候 ， 不 管 使 用 __getitem_ _ 还 是 get 都 会 不 自然 ， 而 且 效 率 
Ro WARP 3-2 中 的 还 没有 经 过 优化 的 代码 所 显示 的 那 
样 ，dict.get 并 不 是 处 理 找 不 到 的 键 的 最 好 方法 。 


示例 3-2 是 由 Alex Martelli 举 的 一 个 例子 工 变化 而 来 ， 例 子 生 成 的 索引 
跟 示 例 3-3 显示 的 一 样 。 


1 示例 代码 出 现在 Martelli 的 演讲 “Re-learning python” (48 41 张 幻灯 
J, http://www.aleax.it/Python/accu04 Relearn Python alex.pdf) ， 他 的 代码 被 我 放 在 了 示例 3-4 
中 ， 代 码 很 好 地 展示 了 dict.setdefault 的 用 法 。 


示例 3-2 index6.py 这 段 程序 从 索引 中 获取 单词 出 现 的 频率 信 
息 ， 并 把 它们 写 进 对 应 的 列表 里 《更 好 的 解决 方案 在 示例 3-4 中 ) 


""" 创 建 一 个 从 单词 到 其 出 现 情况 的 映射 """ 


import sys 
import re 


WORD_RE = re.compile(r' \w+' ) 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 
word = match.group() 
column_no = match.start()+1 
location = (line_no, column_no) 
# 这 其 实 是 一 种 很 不 好 的 实现 ， 这 样 写 只 是 为 了 订 
occurrences = index.get(word, []) © 
occurrences.append(location) 
index[word] = occurrences © 
# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): (4) 
print(word, index[word]) 


@ 提取 word 出 现 的 情况 ， 如 果 还 没有 它 的 记录 ， 返 回 [] 。 
© 把 单词 新 出 现 的 位 置 添加 到 列表 的 后 面 。 
O 把 新 的 列表 放 回 字典 中 ， 这 又 牵扯 到 一 次 查询 操作 。 


@ sorted 函数 的 key= 参数 没有 调用 str.uppper， 而 是 把 这 个 方法 
用 传递 给 sorted 函数 ， 这 样 在 排序 的 时 候 ， 单 词 会 被 规范 成 统一 
工 No 


“这 是 将 方法 用 作 一 等 函数 的 一 个 示例 ， 第 5 章 会 谈 到 这 一 点 。 


示例 3-3 这 里 是 示例 3-2 的 不 完全 得 出， 每 一 行 的 列表 都 代表 一 
个 单词 的 出 现 情况 ， 列 表 中 的 元 又 是 一 对 值 ， 第 一 个 值 表 示 出 现 的 
行 ， 第 二 个 表示 出 现 的 列 


$ _ python3 index6.py ../../data/zen.txt 
a [(19, 48), (20, 53)] 

Although [(11, 1), (16, 1), (18, 1)] 
ambiguity [(14, 16)] 

and [(15, 23)] 

are [(21, 12)] 

aren [(10, 15)] 

at [(16, 38)] 

bad [(19, 50)] 

be [(15, 14), (16, 27), (20, 5@)] 
beats [(11, 23)] 

Beautiful [(3, 1)] 

better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), 
(17, 8), (18, 25)] 


示例 3-2 里 处 理 单 词 出 现 情况 的 三 行 ， 通 过 dict.setdefault 可 以 只 
用 一 行 解 决 。 示 例 3-4 更 接近 Alex Martelli 自己 举 的 例子 。 


示例 3-4 index.py 用 一 行 就 解决 了 获取 和 更 新 单词 的 出 现 情况 列 
表 ， 当 然 跟 示例 3-2 不 一 样 的 是 ， 这 里 用 到 了 dict.setdefault 


"" 创 建 从 一 个 单词 到 其 出 现 情况 的 映射 """ 


import sys 
import re 


WORD_RE = re.compile(r'\w+' ) 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 


for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 
word = match.group() 
column_no = match.start()+1 
location = (line_no, column_no) 
index.setdefault(word, []).append(location) @ 


# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word]) 


@ 获取 单词 的 出 现 情况 列表 ， 如 果 单 词 不 存在 ， 把 单词 和 一 个 空 列表 
放 进 映射 ， 然 后 返回 这 个 空 列 表 ， 这 样 就 能 在 不 进行 第 二 次 碍 找 的 情况 
下 更 新 列表 了 。 


也 就 是 说 ， 这 样 写 : 


my_dict.setdefault(key, []).append(new_value) 


跟 这 样 写 : 


if key not in my_dict: 
my_dict[key] = [] 


my_dict[key].append(new_value) 


二 者 的 效果 是 一 样 的 ， 只 不 过 后 者 至 少 要 进行 两 次 键 查询 一 一 如 果 键 不 
存在 的 话 ， 就 是 三 次 ， 用 setdefault 只 需要 一 次 就 可 以 完成 整个 操 
作 。 


那么 ， 在 单纯 地 碍 找 取 值 〈 而 不 是 通过 碍 找 来 插入 新 值 ) 的 时 候 ， 该 怎 
么 处 理 找 不 到 的 键 呢 ? 


3.4 ERAT EK) SH PE SE A A 


有 时 候 为 了 方便 起 见 ， 就 算 某 个 键 在 映射 里 不 存在 ， 我 们 也 希望 在 通过 
这 个 键 读 取 值 的 时 候 能 得 到 一 个 默认 值 。 有 两 个 途径 能 帮 我 们 达到 这 个 
目的 ， 一 个 是 通过 defaultdict 这 个 类 型 而 不 是 普通 的 dict， 男 一 个 
是 给 自己 定义 一 个 dict 的 子 类 ， 然 后 在 子 类 中 实现 missing 方 
法 。 下 面 将 介绍 这 两 种 方法 。 


3.4.1 defaultdict: 人 处理 找 不 到 的 键 的 一 个 选择 
示例 3-5 在 collections.defaultdict 的 帮助 下 优雅 地 解决 了 示例 3- 
4 里 的 问题 。 在 用 户 创建 defaultdict 对 象 的 时 候 ， 就 需要 给 它 配 置 
一 个 为 找 不 到 的 键 创造 默认 值 的 方法 。 

具体 而 言 ， 在 实例 化 一 个 defaultdict 的 时 候 ， 需 要 给 构造 方法 提供 
一 个 可 调用 对 象 ， 这 个 可 调用 对 象 会 在 getitem _ 页 到 找 不 到 的 键 
的 时 候 被 调用 ， 让 ”getitem _ 返回 某 种 默认 值 。 

比如 ， 我 们 新 建 了 这 样 一 个 字典 : dd = defaultdict(1ist)， 如 果 键 
‘new-key' 在 dd 中 还 不 存在 的 话 ， 表 达 式 dd['new-key'] 会 按照 以 
下 的 步骤 来 行事 。 

(1) 调用 list() 来 建立 一 个 新 列表 。 

(2) 把 这 个 新 列表 作为 值 ，' new-key ' 作为 它 的 键 ， 放 到 dd 中 。 

(3) 返回 这 个 列表 的 引用 。 


而 这 个 用 来 生成 默认 值 的 可 调用 对 象 存 放 在 名 为 default_factory 的 
实例 属性 里 。 


示例 3-$ index default.py: 利用 defaultdict 实例 而 不 是 
setdefault 方法 


"创建 一 个 从 单词 到 其 出 现 情况 的 映射 """ 


import sys 
import re 
import collections 


WORD_RE = re.compile(r'\w+' ) 


index = collections.defaultdict(list) (1) 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match.group() 

column_no = match.start()+1 
location = (line_no, column_no) 
index[word].append(location) @ 


# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word]) 


@ 把 list 构造 方法 作为 default_factory 来 创建 一 个 
defaultdict. 


O 如 果 index 并 没有 word 的 记录 ， 那 么 default_factory 会 被 调 
用 ， 为 查询 不 到 的 键 创造 一 个 值 。 这 个 值 在 这 里 是 一 个 空 的 列表 ， 然 后 
这 个 空 列表 被 赋值 给 index[word]， 继 而 被 当 作 返回 值 返回 ， 因 此 
.append(location) 操作 总 能 成 功 。 


如 果 在 创建 defaultdict 的 时 候 没 有 指定 default_factory， 碍 询 不 
存在 的 键 会 触发 KeyError。 


Be defaultdict 里 的 default_factory 只 会 在 

_ getitem_ _ 里 被 调用 ， 在 其 他 的 方法 里 完全 不 会 发 挥 作用 。 比 
W, dd 是 个 defaultdict, k 是 个 找 不 到 的 键 ，dd[k] 这 个 表达 
式 会 调用 default_factory 创造 某 个 默认 值 ， 而 dd.get(k) 则 会 
返回 None。 


所 有 这 一 切 背 eee ee t 实 是 特殊 方法 missing . ESE 
ee 到 找 不 到 的 键 的 时 候 调 用 default 2 而 实际 


上 这 个 特性 是 所 有 映射 类 型 都 可 以 选择 去 文 持 的 。 


3.4.2 ”特殊 方法 ”missing _ 


所 有 的 映射 类 型 在 处 理 找 不 到 的 键 的 时 候 ， 都 会 牵扯 到 _missing_ _ 
方法 。 这 也 是 这 个 方法 称 作 “missing” 的 原因 。 虽 然 基 类 dict 并 没有 定 
义 这 个 方法 ， 但 是 dict 是 知道 有 这 么 个 东西 存在 的 。 也 就 是 说 ， 如 果 
有 一 个 类 继承 了 dict， 然 后 这 个 继承 类 提供 了 missing _ 方法 ， 那 
么 在 __getitem__ 亿 到 找 不 到 的 键 的 时 候 ，Python HAA SHAE, 

而 不 是 抛 出 一 个 KeyError 异常 。 


Be __missing _ 方法 只 会 被 getitem _ 调用 (比如 在 表达 
式 d[k] 中 ) 。 提 供 ” missing ”方法 对 get 或 者 

_ contains_ (in 运算 符 会 用 到 这 个 方法 ) 这 些 方法 的 使 用 没有 
影响 。 这 也 是 我 在 上 一 节 最 后 的 警告 中 提 到 ，defaultdict 中 的 
default factory 只 对 _getitem 有 作用 的 原因 。 


有 时 候 ， 你 会 希望 在 查询 的 时 候 ， 了 映射 类 型 里 的 键 统统 转换 成 str。 为 
可 编程 电路 板 ( 像 Raspberry Pi 或 Arduino?) 准备 的 

Pingo.io Chttp://www.pingo.io/docs/) 项 目 里 就 有 具体 的 例子 。 在 
Pingo.io 里 ， 电 路 板 上 的 GPIO 针脚 4 以 board.pins 为 名 ， 封 装 在 名 
为 board 的 对 象 里 。board .pins 是 一 个 映射 类 型 ， 其 中 键 是 针脚 的 物 
理 位 置 ， 它 可 能 只 是 一 个 数字 或 字符 串 ， 比 如 "Ae" 或 "P9_12"; 值 则 
是 针脚 连接 的 东西 。 为 了 保持 一 致 性 ， 我 们 希望 board .pins 的 键 只 能 
是 字符 串 ， 但 是 为 了 方便 查询 ，my_arduino.pins[13] 也 是 可 行 的 ， 
这 样 可 以 帮 Arduino 的 初级 玩家 快速 找到 第 13 个 针脚 上 的 LED 灯 。 示 
例 3-6 展示 了 这 样 的 一 个 映射 是 怎么 运行 的 。 


3Raspberry Pi 是 一 个 集成 到 巴掌 大 小 的 板子 上 的 电脑 。Arduino 则 是 一 种 可 以 在 烧 录 程序 的 同 
时 ， 连 接 上 各 种 传感器 ， 用 以 跟 物 理 世 界 交 互 的 电路 板 。 更 多 的 相关 信息 可 以 在 
https://www.raspberrypi.org/ 和 https://www.arduino.cce/ 上 找到 。 一 一 译 者 注 


“通用 输入 输出 针脚 ， 用 来 跟 传感器 或 其 他 设备 用 数据 互动 。 一 一 译 者 注 


示例 3-6” 当 有 非 字 符 串 的 键 被 查找 的 时 候 ，StrKeyDict6 是 如 何 
在 该 键 不 存在 的 情况 下 ， 把 它 转换 为 字符 串 的 


Tests for item retrieval using ~d[key]> notation:: 


>>> d = StrkeyDicte([('2', ‘two'), ('4', 'four')]) 
>>> d['2'] 

"two' 

>>> d[4] 

' four ' 

>>> d[1] 

Traceback (most recent call last): 


KeyError: '1' 


Tests for item retrieval using `d.get(key)` notation: : 


>>> d.get('2') 
'two' 

>>> d.get(4) 

'four' 

>>> d.get(1, 'N/A') 
'N/A' 


Tests for the ‘in operator:: 


>>> 2 ind 
True 
>>> 1 ind 
False 


示例 3-7 则 实现 了 上 面 例子 里 的 StrKeyDicte 类 。 


` 如 果 要 上 自 定义 一 个 映射 类 型 ， 更 合适 的 策略 其 实 是 继承 
collections.UserDict 类 (示例 3-8 就 是 如 此 ) 。 这 里 我 们 从 
dict 继承 ， 只 是 为 了 演示 __missing _ 是 如 何 被 

dict. getitem _ 调用 的 。 


~ 3-7 StrKeyDicte 在 查询 的 时 候 把 非 字 符 串 的 键 转换 为 字符 


class StrKeyDicte(dict): © 


def _missing (self, key): 
if isinstance(key, str): @ 


raise KeyError(key) 
return self[str(key)] © 


def get(self, key, default=None): 
try: 
return self[key] @ 
except KeyError: 
return default © 


def contains (self, key): 
return key in self.keys() or str(key) in self.keys() © 


@ StrKeyDicte 继承 了 dict. 
O 如 果 找 不 到 的 键 本 身 就 是 字符 串 ， 那 就 抛 出 KeyError 异常 。 
O 如 果 找 不 到 的 键 不 是 字符 串 ， 那 么 把 它 转 换 成 字符 串 再 进行 查找 。 


O get 方法 把 查找 工作 用 self[key] 的 形式 委托 给 ”getitem ， 这 
样 在 宣 布 查 找 失 败 之 前 ， 还 能 通过 ”missing “再 给 某 个 键 一 个 机 
ae 


@ 如 果 执 出 KeyError， 那 么 说 明 missing 也 失败 了 ， 于 是 返回 
default. 


O 先 按 照 传 入 键 的 原本 的 值 来 查找 我 们 的 映射 类 型 中 可 能 含有 非 字 
ATER AE ， 如 采 没 找到 ， 再 用 str( ) 方法 把 键 转换 成 字符 串 再 查找 
=R; 


下 面 来 看 看 为 什么 isinstance(key，str) 测试 在 上 面 的 
_ missing__ 中 是 必需 的 。 


__missing _ rea a re Ee 
都 能 正常 运行 。 但 是 如 果 str(k) 不 是 一 个 存在 的 键 ， 代 码 就 会 陷入 无 
限 递 归 。 这 是 因为 __missing__ 的 最 后 一 行 中 的 self[str(key)] & 
调用 getitem ， 而 这 个 str(key) 又 不 存在 ， 于 是 missing _ 

会 被 调用 。 


为 了 保持 一 致 性 ，_contains_ ”方法 在 这 里 也 是 必需 的 。 这 是 因为 k 
in d 这 个 操作 会 调用 它 ， 但 是 我 们 从 dict 继承 到 的 contains _ 
方法 不 会 在 找 不 到 键 的 时 候 调 用 ”missing _ 方法 。 contains _ 
里 还 有 个 细节 ， 束 是 我 们 这 里 没有 用 更 具 Python 风格 的 方式 一 一 k in 
my_dict 一 一 来 检查 键 是 否 存在 ， 因 为 那 也 会 导致 ”contains_ ”被 递 
归 调 用 。 为 了 避免 这 一 情况 ， 这 里 采取 了 更 显 式 的 方法 ， 直 接 在 这 个 
self.keys() 里 查询 。 


` 像 k in my_dict.keys() 这 种 操作 在 Python 3 中 是 很 快 

的 ， 而 且 即 便 映 射 类 型 对 象 很 庞大 也 没关系 。 这 有 是 因为 
dict.keys() 的 返回 值 是 一 个 “视图 "。 视 图 就 像 一 个 集合 ， 而 且 跟 
字典 类 似 的 是 ， 在 视图 里 查找 一 个 元 素 的 速度 很 快 。 在 “Dictionary 
View 

objects” (https://docs.python.org/3/library/stdtypes.html#dictionary- 
view-objects) 里 可 以 找到 关于 这 个 细节 的 文档 。Python2 的 
dict.keys() 返回 的 是 个 列表 ， 因 此 虽然 上 面 的 方法 仍然 是 正确 
的 ， 它 在 处 理 体 积 大 的 对 象 的 时 候 效率 不 会 太 高 ， 因 为 k in 
my_list 操作 需要 扫描 整个 列表 。 


出 于 对 准确 度 的 考虑 ， 我 们 也 需要 这 个 按照 键 的 原本 的 值 来 查找 的 操作 
(也 就 是 key in self.keys()) ， 因 为 在 创建 StrKeyDicte 和 为 它 
添加 新 值 的 时 候 ， 我 们 并 没有 强制 要 求 传 入 的 键 必 须 是 字符 串 。 因 为 这 
个 操作 没有 规定 死 键 的 类 型 ， 所 以 让 查找 操作 变 得 更 加 友好 。 


好 了 ， 我 们 已 经 见识 过 dict 和 defaultdict 了 。 但 是 标准 库 里 面 还 
有 很 多 其 他 的 映射 类 型 ， 下 面 就 来 看 看 。 


3.5 字典 的 变种 


这 一 节 总 结 了 标准 库 里 collections 模块 中 ， 除 了 defaultdict 之 外 
的 不 同 映射 类 型 。 


collections.OrderedDict 


这 个 类 型 在 添加 键 的 时 候 会 保持 顺序 ， 因 此 键 的 迭代 次 序 总 是 一 致 
的 。OrderedDict 的 popitem 方法 默认 删除 并 返回 的 是 字典 里 的 最 后 
一 个 元 素 ， 但 是 如 果 像 my_odict.popitem(1ast=False) 这 样 调用 
它 ， 那 么 它 删除 并 返回 第 一 个 被 添加 进去 的 元 素 。 


collections .ChainMap 


该 类 型 可 以 容纳 数 个 不 同 的 映射 对 象 ， 然 后 在 进行 键 查 找 操作 的 时 
候 ， 这 些 对 象 会 被 当 作 一 个 整体 被 逐个 查找 ， 直 到 键 被 找到 为 止 。 这 个 
功能 在 给 有 奶 套 作用 域 的 语言 做 解释 器 的 时 候 很 有 用 ， 可 以 用 一 个 映射 
对 象 来 代表 一 个 作用 域 的 上 下 文 。 在 collections 文档 介绍 ChainMap 
对 象 的 那 一 部 分 
(https://docs.python.org/3/library/collections.html#collections.ChainMap) 
reared 的 使 用 示例 ， 其 中 包含 了 下 面 这 个 Python 变量 查询 规则 的 
WAS Fr Be: 


import builtins 
pylookup = ChainMap(locals(), globals(), vars(builtins) ) 


collections.Counter 


TX SRG SS AS Se 2 BEE Fh — TET Bae FARE BE TINY ti 
都 会 增加 这 个 计数 器 。 所 以 这 个 类 型 可 以 用 来 给 可 散 列 表 对 象 计 数 ， 或 
者 是 当成 多 重 集 来 用 一 一 多 重 集合 就 是 集合 里 的 元 素 可 以 出 现 不 止 一 
次 。Counter 实现 了 + 和 - 运算 符 用 来 合并 记录 ， 还 有 像 
most_common([n]) 这 类 很 有 用 的 方法 。most_common([n] ) 会 按照 次 
序 返回 映射 里 最 和 常见 的 n 个 键 和 它们 的 计数 ， 详 情 参 阅 文档 
Chttps://docs.python.org/3/library/collections.html#collections.Counter) 。 


下 面 的 小 例子 利用 Counter 来 计算 单词 中 各 个 字母 出 现 的 次 数 : 


>>> ct = collections.Counter('abracadabra') 
>>> ct 

Counter({'a': 5, 'b': 2, 'r': 

>>> ct.update('aaaaazzz') 


>>> ct 

Counter({'a': 10, 'z': 3, 'b': 
>>> ct.most_common(2) 

[('a', 10), ('z', 3)] 


colllections.UserDict 


这 个 类 其 实 就 是 把 标准 dict 用 纯 Python 又 实现 了 一 通 。 


跟 OrderedDict、ChainMap 和 Counter 这 些 开 箱 即 用 的 类 型 不 
同 ，UserDict 是 让 用 户 继承 写 子 类 的 。 下 面 就 来 试 试 。 


3.6” 子 类 化 UserDict 

就 创造 自 定义 映射 类 型 来 说 ， 以 UserDict 为 基 类 ， 总 比 以 普通 的 
dict 为 基 类 要 来 得 方便 。 

这 体现 在 ， 我 们 能 够 改进 示例 3-7 中 定义 的 StrKeyDicte 类 ， 使 得 所 
有 的 键 都 存储 为 字符 串 类 型 。 


而 更 倾向 于 从 UserDict 而 不 是 从 dict 继承 的 主要 原因 是 ， 后 者 有 时 
会 在 某 些 方法 的 实现 上 走 一 些 捷径 ， 导 致 我 们 不 得 不 在 它 的 子 类 中 重 写 
这 些 方法 ， 但 是 UserDict 就 不 会 带 来 这 些 问 题 。5 


5 关于 从 dict 或 者 其 他 内 置 类 继承 到 底 有 什么 不 好 ， 详 见 12.1 节 。 


另外 一 个 值得 注意 的 地 方 是 ，UserDict 并 不 是 dict MHA, (Az 
UserDict 有 一 个 叫 作 data 的 属性 ， 是 dict 的 实例 ， 这 个 属性 实际 上 
是 UserDict 最 终 存储 数据 的 地 方 。 这 样 做 的 好 处 是 ， 比 起 示例 3- 

7, UserDict 的 子 类 就 能 在 实现 ”setitem _ 的 时 候 避 人 免 不 必要 的 递 
H, Ea AE contains 里 的 代码 更 简洁 。 


多 亏 了 UserDict， 示 例 3-8 里 的 StrKeyDict 的 代码 比 示 例 3-7 里 的 
StrKeyDicto 要 短 一 些 ， 功 能 却 更 完善 : 它 不 但 把 所 有 的 键 都 以 字符 
串 的 形式 存储 ， 还 能 处 理 一 些 创建 或 者 更 新 实例 时 包含 非 字 符 串 类 型 的 
键 这 类 意外 情况 。 


示例 3-8 无 论 是 添加 、 更 新 还 是 查询 操作 ，StrKeyDict 都 会 把 
非 学 符 串 的 键 转换 为 字符 串 


import collections 


class StrKeyDict(collections.UserDict): © 


def _missing (self, key): @ 
if isinstance(key, str): 
raise KeyError(key) 
return self[str(key) ] 


def _ contains (self, key): 
return str(key) in self.data © 


def _setitem (self, key, item): 
self.data[str(key)] = item @ 


@ strkeyDict 是 对 UserDict 的 扩展 。 


© missing _ 跟 示 例 3-7 里 的 一 模 一 样 。 


全 contains 则 更 简洁 些 。 这 里 可 以 放心 假设 所 有 已 经 存储 的 键 都 
是 字符 串 。 因 此 ， 只 要 在 self.data 上 查询 就 好 了 ， 并 不 需要 像 
StrKeyDict AFF Zz RIM self.keys()。 


@ _setitem_ 会 把 所 有 的 键 都 转换 成 字符 串 。 由 于 把 具体 的 实现 委 
托 给 了 self.data 属性 ， 这 个 方法 写 起 来 也 不 难 。 


因为 UserDict 继承 的 是 MutableMapping， 所 以 StrKeyDict 里 剩 下 
的 那些 映射 类 型 的 方法 都 是 从 UserDict、MutableMapping 和 
Mapping 这 些 超 类 继承 而 来 的 。 特 别 是 最 后 的 Mapping 类 ， 它 虽然 是 
一 个 抽象 基 类 (ABC)〉， 但 它 却 提 供 了 好 几 个 实用 的 方法 。 以 下 两 个 方 
法 值得 关注 。 


MutableMapping.update 


这 个 方法 不 但 可 以 为 我 们 所 直接 利用 ， 它 还 用 在 _ init ¥, ik 
构造 方法 可 以 利用 传 入 的 各 种 参数 〈 其 他 映射 类 型 、 元 素 是 (key, 
value) 对 的 可 迭代 对 象 和 键 值 参数 ) 来 新 建 实例 。 因 为 这 个 方法 在 背 
后 是 用 self[key] = value 来 添加 新 值 的 ， 所 以 它 其 实 是 在 使 用 我 们 
的 setitem_ _ 方法 。 


Mapping. get 


在 StrKeyDicte8@ (示例 3-7) 中 ， 我 们 不 得 不 改写 get 方法 ， 好 让 
它 的 表现 跟 ” getitem 一致 。 而 在 示例 3-8 中 就 没 这 个 必要 了 ， 
为 它 继承 了 Mapping.get 方法 ， 而 Python 的 源码 

Chttps://hg.python.org/cpython/file/3.4/Lib/ collections abc.py#l422) 显 


示 ， 这 个 方法 的 实现 方式 跟 StrKeyDict®. get 是 一 模 一 样 的 。 


< 在 写 完 StrKeyDict 这 个 类 之 后 ， 我 读 到 了 Antonie Pitrou 5 
的 “PEP 455 — Adding a key-transforming dictionary to 

collections” (https://www.python.org/dev/peps/pep-0455/) > X% pft 
带 的 补丁 里 包含 了 一 个 叫 作 TransformDict 的 新 类 型 。 这 个 补丁 
通过 issue 18986 Chttp://bugs.python.org/issue18986) 被 吸收 进 了 
Python 3.5。 为 了 试 试 这 个 类 ， 我 把 它 提取 出 来 放 进 了 一 个 单独 的 模 
块 ( 在 本 书 代码 仓库 中 : 03-dict- 

set/transformdict.py, https://github.com/fluentpython/example- 
code/blob/master/03-dict-set/transformdict.py) 。 比 起 

StrKeyDict, TransformDict 的 通用 性 更 强 ， 也 更 复杂 ， 因 为 它 
把 键 存 成 字符 串 的 同时 ， 还 要 按照 它 原来 的 样子 存 一 份 。 


之 前 我 们 见识 过 了 不 可 变 的 序列 类 型 ， 那 有 没有 不 可 变 的 字典 类 型 呢 ? 
这 么 说 吧 ， 在 标准 库 里 是 没有 这 样 的 类 型 的 ， 但 是 可 以 用 答 吴 来 代 答 。 


3.7 ”不 可 变 映射 类 型 


标准 库 里 所 有 的 映射 类 型 都 是 可 变 的 ， 但 有 时 候 你 会 有 这 样 的 需求 ， 比 
如 不 能 让 用 户 错误 地 修改 某 个 映射 。3.4.2 节 提 到 过 Pingo.io， 它 里 面 就 
有 个 现成 的 例子 。Pingo.io 里 有 个 映射 的 名 字 叫 作 board.pins， 里 面 
的 数据 是 GPIO 物理 针脚 的 信息 ， 我 们 当然 不 希望 用 户 一 个 玻 包 就 把 这 
些 信 息 给 改 了 。 因 为 硬件 方面 的 东西 是 不 会 受 软 件 影响 的 ， 所 以 如 果 把 
这 个 映射 里 的 信息 改 了 ， 就 跟 物 理 上 的 元 件 对 不 上 号 了 。 


从 Python 3.3 开始 ，types 模块 中 引入 了 一 个 封闭 类 名 叫 
MappingProxyType。 如 果 给 这 个 类 一 个 映射 ， 它 会 返回 一 个 只 读 的 映 
射 视图 。 虽 然 是 个 只 读 视 图 ， 但 是 它 是 动态 的 。 这 意味 着 如 果 对 原 映射 
做 出 了 改动 ， 我 们 通过 这 个 视图 可 以 观察 到 ， 但 是 无 法 通过 这 个 视图 对 
原 映 射 做 出 修改 。 示 例 3-9 简短 地 对 这 个 类 的 用 法 做 了 个 演示 。 


示例 3-9 用 MappingProxyType 来 获取 字典 的 只 读 实例 
mappingproxy 


>>> from types import MappingProxyType 

>>> d = {1:'A'} 

>>> d_proxy = MappingProxyType(d) 

>>> d_proxy 

mappingproxy({1: 'A'}) 

>>> d_proxy[1] © 

"At 

>>> d_proxy[2] = 'x' @ 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: 'mappingproxy' object does not support item assignment 

>>> d[2] = 'B' 

>>> d_proxy © 

mappingproxy({1: 'A', 2: 'B' 

>>> d_proxy[2] 

'B' 

>>> 


Od 中 的 内 容 可 以 通过 d_proxy 看 到 。 
@ 但 是 通过 d_proxy 并 不 能 做 任何 修改 。 


> d_proxy 是 动态 的 ， 也 就 是 说 对 d 所 做 的 任何 改动 都 会 反馈 到 它 上 


因此 在 Ping io 中 我 们 是 这 样 用 它 的 : Board 的 具体 子 类 会 提供 一 个 包 
含 针 脚 信息 的 私有 映射 成 员 ， 然 后 通过 公开 属性 .pins 把 这 个 映射 暴 
露 给 API 的 客户 ， 而 .pins 属性 其 实 就 是 用 mappingproxy 实现 的 。 

一 旦 这 样 写 好 了 ， 客 户 就 不 能 对 这 个 映射 进行 任何 意外 的 添加 、 移 除 或 
者 修改 操作 。5 


SAT 照顾 Python 2.7， 现 实 中 的 Pingo.io 没有 借用 MappingProxyType 来 实现 这 个 功能 ， 因 为 
它 只 在 Python 3.3 里 才 有 。 


到 了 这 里 ， 我 们 对 标准 库 中 的 大 多 数 映射 类 型 都 有 了 一 些 了 解 ， 下 面 让 
我 们 移 步 到 集合 类 型 。 


38 Ait 


“和 集 ” 这 个 概念 在 Python 中 算是 比较 年 轻 的 ， 同 时 和 它 的 使 用 率 也 比较 
低 。set 和 它 的 不 可 变 的 姊妹 类 型 frozenset 直到 Python 2.3 才 首次 以 
模块 的 形式 出 现 ， 然 后 在 Python 2.6 中 它们 升级 成 为 内 置 类 型 。 


` 本 书 中 “和 集 ” 或 者 “集合 ”" 既 指 set, HI frozenset. 
当 “ 集 ” 仅 指 代 set 类 时 ， 我 会 用 等 宽 字体 表示 “。 


“ 集 " 在 英文 中 就 是 set， 因 此 原 书 中 需要 用 等 宽 字 体 来 区 分 特 指 和 泛 指 。 


编者 注 
集合 的 本 质 是 许多 唯一 对 象 的 聚集 。 因 此 ， 和 集合 可 以 用 于 去 重 : 


>>> 1 = ['spam', 'spam', 'eggs', 'spam'] 
>>> set(1) 


{'eggs', 'spam'} 
>>> list(set(1)) 
['eggs', ‘spam’ ] 


集合 中 的 元 素 必 须 是 可 散 列 的 ，set 类 型 本 身 是 不 可 散 列 的 ， 但 是 
frozenset 可 以 。 因 此 可 以 创建 一 个 包含 不 同 frozenset 的 set. 


除了 保证 唯一 性 ， 集 合 还 实现 了 很 多 基础 的 中 缀 运算 符 。 给 定 两 个 集合 
a 和 b，a | b 返 回 的 是 它们 的 合集 ，a & b 得 到 的 是 交集 , 而 a - b 
得 到 的 是 差 集 。 合 理 地 利用 这 些 操作 ， 不 仅 能 够 让 代码 的 行 数 变 少 ， 还 
能 减少 Python 程序 的 运行 时 间 。 这 样 做 同时 也 是 为 了 让 代码 更 易 读 ， 从 
而 更 容易 判断 程序 的 正确 性 ， 因 为 利用 这 些 运算 符 可 以 省 去 不 必要 的 特 
环 和 逻辑 操作 ， 


例如 ， 我 们 有 一 个 电子 邮件 地 址 的 集合 Chaystack) ， 还 要 维护 一 个 

较 小 的 电子 邮件 地 址 集合 (needles) ， 然 后 求 出 needles 中 有 多 少 地 
址 同时 也 出 现在 了 heystack 里 。 借 助 集合 操作 ， 我 们 只 需要 一 行 代 码 
就 可 以 了 【〔 见 示例 3-10) 。 


示例 3-10 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 两 个 变量 


都 是 set 类 型 


found = len(needles & haystack) 


如 果 不 使 用 交集 操作 的 话 ， 代 码 可 能 就 变 成 了 示例 3-11 里 那样 。 


示例 3-11 needles 的 元 素 在 haystack 里 出 现 的 次 数 〈 作 用 和 示 
例 3-10 中 的 相同 ) 


found = 6 
for n in needles: 


if n in haystack: 
found += 1 


示例 3-10 比 示例 3-11 的 速度 要 快 一 些 ， 男 一 方面 ， 示 例 3-11 可 以 用 在 
任何 可 和 迭代 对 象 needles 和 haystack 上 ， 而 示例 3-10 则 要 求 两 个 对 
象 都 是 集合 。 话 再 说 回来 ， 束 算 手 头 没 有 集合 ， 我 们 也 可 以 随时 建立 集 
合 ， 如 示例 3-12 所 示 。 


示例 3-12 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 这 次 的 代 
码 可 以 用 在 任何 可 迭代 对 象 上 


found = len(set(needles) & set(haystack) ) 


# MBE: 


found = len(set(needles).intersection(haystack) ) 


示例 3-12 里 的 这 种 写法 会 牵扯 到 把 对 象 转化 为 集合 的 成 本 ， 不 过 如 果 
needles 或 者 是 haystack 中 任意 一 个 对 象 已 经 是 集合 ， 那 么 示例 3-12 
的 方案 可 能 就 比 示 例 3-11 里 的 要 更 高 效 。 


以 上 的 所 有 例子 的 运行 时 间 都 能 在 3 坚 秒 左右 ， 在 含有 10 000 000 个 元 
素 的 haystack 里 搜索 1000 个 值 ， 算 下 来 大 概 是 每 个 元 素 3 微 秒 。 


除了 速度 极 快 的 查找 功能 〈 这 也 得 归功 于 它 背 后 的 散 列 表 ) ， 内 置 的 
set 和 frozenset 提供 了 丰富 的 功能 和 操作 ， 不 但 让 创建 集合 的 方式 


丰富 多 彩 ， 而 且 对 于 set 来 讲 ， 我 们 还 可 以 对 集合 里 已 有 的 元 素 进行 修 
改 。 在 讨论 这 些 操作 之 前 ， 先 来 看 一 下 相关 的 句法 。 


3.8.1 集合 字面 量 


除 空 集 之 外 ， 集 合 的 字面 量 {1}、{1，2}， 等 等 一 一 看 起 来 跟 它 的 
数学 形式 一 模 一 样 。 如 果 是 空 集 ， 那 么 必须 写成 set() 的 形式 。 


an 句法 的 陷阱 


不 要 起 了， 如 果 要 创建 一 个 空 集 ， 你 必须 用 不 币 任 何 参 数 的 构造 方 
法 set()。 如 果 只 是 写成 {} 的 形式 ， 跟 以 前 一 样 ， 你 创建 的 其 实 


BL A ey oe 
是 个 空 字典 。 


在 Python 3 里 面 ， 除 了 空 集 ， 集 合 的 字符 串 表 示 形 式 总 是 以 {...} 的 形 
式 出 现 。 


>>> s = {1} 
>>> type(s) 
<class 'set'> 
>>> S 


{1} 
>>> S.pop() 
1 


>>> S 
set() 


R{1, 2, 3} 这 种 字面 量 句法 相 比 于 构造 方法 Cset([1, 2, 3])) 要 
更 快 且 更 易 读 。 后 者 的 速度 要 慢 一 些 ， 因 为 Python 必须 先 从 set 这 个 
名 字 来 查询 构造 方法 ， 然 后 新 建 一 个 列表 ， 最 后 再 把 这 个 列表 传 入 到 构 
造 方法 里 。 但 是 如 果 是 像 {1，2，3} 这 样 的 字面 量 ，Python 会 利用 一 
个 专门 的 叫 作 BUILD_SET 的 字 节 码 来 创建 集合 。 


用 dis.dis《〈 反 汇编 函数 ) 来 看 看 两 个 方法 的 字 节 码 的 不 同 : 


>>> from dis import dis 
>>> dis('{1}') 
1 @ LOAD_CONST Ə (1) 


3 BUILD SET 1 (2) 
6 RETURN_VALUE 


>>> dis('set([1])') © 
1 © LOAD NAME @ (set) © 
3 LOAD CONST Ə (1) 
6 BUILD _LIST 1 
9 CALL_FUNCTION 1 (1 positional, @ keyword pair) 


12 RETURN_VALUE 


@ 检查 {1} 字面 量 背后 的 字 节 码 。 
O 特殊 的 字 节 码 BUILD_SET 几乎 完成 了 所 有 的 工作 。 


© set([1]) 的 字 节 码 。 


© 3 种 不 同 的 操作 代 蔡 了 上 面 的 
BUILD_SET: LOAD_NAME、BUILD_LIST 和 CALL_FUNCTION。 


由 于 Python 里 没有 针对 frozenset 的 特殊 字面 量 句法 ， 我 们 只 能 采用 
构造 方法 。Python 3 里 frozenset 的 标准 字符 串 表 示 形 式 看 起 来 就 像 构 
造 方法 调用 一 样 。 来 看 这 段 控 制 台 对 话 : 


>>> frozenset(range(10)) 

frozenset({@, 1, 2, 3, 4, 5, 6, 7, 8, 9}) 

既然 提 到 了 名 法， 就 不 得 不 提 一 下 我 们 已 经 熟悉 的 列表 推导 ， 因 为 也 有 
类 似 的 方式 来 新 建 集 合 。 

3.8.2 ”集合 推导 


Python 2.7 带 来 了 集合 推导 〈setcomps) 和 之 前 在 3.2 节 里 讲 到 过 的 字典 
推导 。 示 例 3-13 是 个 简单 的 例子 。 


示例 3-13 新建 一 个 Latin-1 字符 集合 ， 该 集合 里 的 每 个 字符 的 
Unicode 名 字 里 都 有 “SIGN” 这 个 单词 


>>> from unicodedata import name @ 
>>> {chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')} @ 
{'S', ve Ea Sika EG Bs ae '¥', if 5 "x", eae Ts EN '©', 


@ 从 unicodedata 模块 里 导入 name 函数 ， 用 以 获取 字符 的 名 字 。 


O 把 编码 在 32~255 之 间 的 字符 的 名 字 里 有 “SIGN” 单 词 的 挑 出 来 ， 放 到 
一 个 集合 里 。 


跟 句 法 相关 的 内 容 束 讲 到 这 里 ， 下 面 看 看 用 于 集合 类 型 的 丰富 操作 。 


3.8.3 ”集合 的 操作 


图 3-2 列 出 了 可 变 和 不 可 变 集合 所 拥有 的 方法 的 概况 ， 其 中 不 少 是 运算 
符 重 载 的 特殊 方法 。 表 3-2 则 包含 了 数学 里 集合 的 各 种 操作 在 Python 中 
所 对 应 的 运算 符 和 方法 。 其 中 有 些 运算 符 和 方法 会 对 集合 做 就 地 修改 
( 像 &=、difference_update， 等 等 ) ， 这 类 操作 在 纯粹 的 数学 世界 
里 是 没有 意义 的 ， 另 外 frozenset 也 不 会 实现 这 些 操作 。 


isdisjoint MutableSet 
d 


Iterable 


图 3-2: collections.abc '}, MutableSet 和 它 的 超 类 的 UML 类 图 


《箭头 从 子 类 指 同 超 类 ， 抽 象 类 和 抽象 方法 的 名 称 以 斜体 显示 ， 其 
中 省 略 了 反 同 运算 符 方法 ) 


a K 3-2 中 的 中 级 运 算 符 需 要 两 侧 的 被 操作 对 象 都 是 集合 类 
型 ， 但 是 其 他 的 所 有 方法 则 只 要 求 所 传 入 的 参数 是 可 迭代 对 象 。 例 
on, FER 4 个 聚合 类 型 a、b、c 和 d 的 合集 ， 可 以 用 a.union(b， 
c, d), XE a 必须 是 个 set， 但 是 b、c 和 d 则 可 以 是 任何 类 型 
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43-2: 集合 的 数学 运算 : 这 些 方法 或 者 会 生成 新 集合 ， 或 者 会 在 条 
件 允 许 的 情况 下 残 地 修改 集合 


方法 描述 


as 
T = ZEL 


把 可 迭代 的 it 和 其 他 所 有 参数 
5; pment ao È 转化 为 集合 ， 然 后 求 它们 与 s 
的 交集 


mG) (Re HI Ws FR 
s & 


FERRY it 和 其 他 所 有 参数 
s.intersection\_update(it 转化 为 集合 ， 然后 求 得 它们 与 
=v ates s 的 交集 ， 然 后 把 s 更 新 成 这 
个 交集 


PE Ch 


把 可 迭代 的 it 和 其 他 所 有 参数 
s. pms 转化 为 集合 ， 然 后 求 它 们 和 s 
的 并 集 


把 可 选 代 的 it 和 其 他 所 有 参数 
转化 为 集合 ， 然 后 求 它 们 和 s 
P a 的 并 集 ， 并 把 s 更 新 成 这 个 并 
集 


MRAR 


Bn ER 


把 可 迭代 的 it 和 其 他 所 有 参数 
= a é 转化 为 集合 ， 然 后 求 它 们 和 s 
的 差 集 


s.\_\_isub\_\_(z) 把 s 更 新 为 它 与 z WHE 


FERRY it 和 其 他 所 有 参数 
s.difference\_update(it, ...) 转化 为 集合 ， 求 它们 和 s NH 
集 ， 然后 把 更 新 成 这 个 差 集 


求 i JEg re Æ 
i i " ii ii = 


-P 
A Nn 
Z S 


把 可 迭代 的 it 和 其 他 所 有 参数 
s.symmetric\_difference\_update(it, 转化 为 集合 ， 然 后 求 它 们 和 s 
5 的 对 称 差 集 ， 最 后 把 s 更 新 成 
该 结果 
s.\_\_ixor\_\_(z) 把 s 更 新 成 它 与 z 的 对 称 差 集 


Bey 在 写 这 本 书 的 时 候 ，Python 有 个 缺陷 〈issue 

8743, http://bugs.python.org/issue8743) ， 里 面 说 到 set() 的 运算 符 
Cor, and, sub, xor 和 它们 相对 应 的 就 地 修改 运算 符 ) 要 求 参 
数 必须 是 set() 的 实例 ， 这 就 导致 这 些 运算 符 不 能 被 用 在 
collections.abc.Set 这 个 子 类 上 面 。 这 个 缺陷 已 经 在 Python 2.7 
和 Python 3.4 里 修复 了 ， 在 你 看 到 这 本 书 的 时 候 ， 它 已 经 成 了 历 


fe) 


K 3-3 里 列 出 了 返回 值 是 True 和 False 的 方法 和 运算 符 。 
表 3-3: 集合 的 比较 运算 符 ， 返 回 值 是 布尔 类 型 


数学 符 | Python 运 
号 算 符 
E a 
s.isdisjoint(z) © 


wee ae 
为 集合 ， 然 后 


s.\_\_ge\_\_(z) 
S i 的 1 长 合 ， 
s.issuperset(it) ` ; z 


除了 跟 数 学 上 的 集合 计算 有 关 的 方法 和 运算 符 ， 集 合 类 型 还 有 一 些 为 了 
实用 性 而 添加 的 方法 ， 其 汇总 见于 表 3-4。 


表 3- 类 型 的 其 他 方法 


4: 

SS 
EL eee 
pa H ee 
C ew 
| 
ee 


op | 
t 从 s HBR ATER IERIE INE, s32, Wi 
noe 出 KeyError 异常 
Ms 中 移 除 。 TR, He 元 素 不 存在， 则 抛 出 
s.remove(e) KeveRnan 异常 


到 这 里 ， 我 们 差不多 把 集合 类 型 的 特性 总 结 完了 。 
下 面 会 继续 探讨 字典 和 集合 类 型 背后 的 实现 ， 看 看 它们 是 如 何 借助 散 列 


表 来 实现 这 些 功 和 的 。 读 完 这 章 余下 的 内 容 后 ， 就 算 再 遇 到 dict, set 
或 是 其 他 这 一 类 型 的 一 些 莫 名 其 妙 的 表现 ， 你 也 不 会 手足 无 措 。 


3.9 dict 和 set 的 背后 


想 要 理解 Python 里 字典 和 集合 类 型 的 长 处 和 弱点 ， 它 们 背后 的 散 列 表 是 
绕 不 开 的 一 环 。 


这 一 节 将 会 回答 以 下 几 个 问题 。 
e Python 里 的 dict 和 set 的 效率 有 多 高 ? 
© 为 什么 它们 是 无 序 的 ? 
° AE Python 对 象 都 可 以 当 作 dict 的 键 或 set 里 的 


。 为 什么 dict 的 键 和 set 元 素 的 顺序 是 跟 据 它们 被 添加 的 次 序 而 定 
这 个 顺序 并 不 是 一 成 不 
ZUR ? 


。 为 什么 不 应 该 在 迭代 循环 dict 或 是 set 的 同时 往 里 添加 元 素 ? 


为 了 让 你 有 动力 研究 散 列 表 ， 下 面 先 来 看 一 个 关于 dict 和 set 效率 的 
实验 对 象 里 大 概 有 上 百 万 个 元 系 ， 而 实验 结果 可 能 会 出 乎 你 的 意 


3.9.1 一 个 关于 效率 的 实验 
所 有 的 Python 程序 员 都 从 经 验 中 得 出 结论 ， 认 为 字典 和 集合 的 速度 是 非 
常 快 的 。 接 下 来 我 们 要 通过 可 控 的 实验 来 证 实 这 一 点 。 


为 了 对 比 容器 的 大 小 对 dict. set list 的 in 运算 符 效 率 的 影响 ， 
我 创建 了 一 个 有 1000 万 个 双 精 度 浮 点 数 的 数组 ， 名 叫 haystack. Ab 
还 有 一 个 包含 了 1000 个 浮 点 数 的 needles 数组 ， 其 中 500 个 数字 是 从 
haystack 里 挑 出 来 的 ， 另 外 500 个 肯定 不 在 haystack 里 。 


VEN dict 测试 的 基准 ， 我 用 dict.fromkeys() 来 建立 了 一 个 含 


1000 个 浮 点 数 的 名 叫 haystack 的 字典 ， 并 用 timeit 模块 测试 示例 3- 
14“《〈 与 示例 3-11 相同 ) 里 这 段 代 码 运行 所 需要 的 时 间 。 


示例 3-14 在 haystack 里 查找 needles 的 元 素 ， 并 计算 找到 的 
元 素 的 个 数 


found = 6 
for n in needles: 


if n in haystack: 
found += 1 


然后 这 段 基准 测试 重复 了 4 次 ， 每 次 都 把 haystack 的 大 小 变 成 了 上 一 
N 倍 ， 直 到 里 面 有 1000 万 个 元 素 。 最 后 这 些 测试 的 结果 列 在 了 表 
3-5 中 。 

23-5: 用 in 运算 符 在 5 个 不 同 大 小 的 haystack 字 和 典 里 搜索 1000 个 元 
素 所 需要 的 时 间 。 人 代码 运行 在 一 个 Core 这 笔记 本 上， 了 Python 上 厂 本 是 
3.4.0《〈 测 试 计算 的 是 示例 3-14 里 循环 的 运行 时 间 ) 


haystack 的 长 度 增长 系数 dict 花 费时 间 增长 系数 


1 000 000 1000x 0.000290s 
10 000 000 10 000x 0.000337s 


也 就 是 说 ， 在 我 的 笔记 本 上 从 1000 个 字典 键 里 搜索 1000 个 浮 点 数 所 需 
的 时 间 是 0.000202 秒 ， 把 同样 的 搜索 在 含有 10 000 000 S70 


EHT iN, J a 0.000337 秒 。 换 句 话 说 ， 在 一 个 有 1000 万 个 键 的 
Age 1000 个 数 ， 花 在 每 个 数 上 的 时 间 不 过 是 0.337 微 秒 没 
， 相 当 于 平均 每 个 数 差不多 三 分 之 一 微 秒 。 


作为 对 比 ， 我 把 haystack 换 成 了 set 和 list 类 型 ， 重 复 了 同样 的 增 
长 大 小 的 实验 。 对 于 set， 除 了 上 面 的 那个 循环 的 运行 时 间 ， 我 还 测量 
了 示例 3-15 那 行 代 码 ， 这 段 代 人 码 也 计算 了 needles 中 出 现在 
haystack 中 的 元 素 的 个 数 。 


示例 3-15 利用 交集 来 计算 needles 中 出 现在 haystack 中 的 元 
素 的 个 数 


found = len(needles & haystack) 


表 3-6 列 出 了 所 有 测试 的 结果 。 最 快 的 时 间 来 自 “ 集 合 交 集 花 费时 间 ” 这 

一 列 ， 这 一 列 的 结果 是 示例 3-15 中 利用 集合 & 操作 的 代码 的 效果 。 不 
出 所 料 的 是 ， 最 糟糕 的 表现 来 目 "列表 人 花费 时 间 ” 这 一 列 。 由 于 列表 的 背 
后 没有 散 列 表 来 支持 in 运算 符 ， 每 次 搜索 都 需要 扫描 一 次 完整 的 列 
表 ， 导 致 所 需 的 时 间 跟 据 haystack 的 大 小 呈 线 性 增长 。 


表 3-6: 在 S$ 个 不 同 大 小 的 haystack 里 搜索 1000 个 元 素 所 需 的 时 

间 ，haystack 分 别 以 字典 、 集 合 和 列表 的 形式 出 现 。 测 试 环 境 是 一 
个 有 Core 这 处 理 器 的 笔记 本 ， 了 Python 版 本 是 3.4.0〈 测 试 所 测量 的 代码 
是 示例 3-14 中 的 循环 和 示例 3-1S 的 集合 & 操 作 ) 


1000 二 0.000202s 0.000143s 0.000087s 0.010556s 


10 000 0.000140s 0.000147s 0.000092s 0.086586s 
100 000 0.000228s 0.000241s 0.000163s 0.871560s | 82.57x 


1 000 000 | 1000x | 0.000290s | 1.44% | 0.000332s | 2.32 | 0.000250s | 2.87x |9.189616s | 870.56x 


10 000 000 0.000337s 0.000387s 0.0003 14s 97.948056s | 9278.90 


如 果 在 你 的 程序 里 有 任何 的 磁盘 输入 mh AAS Ee & 2D 7c 


素 的 字典 或 集合 ， 所 耗费 的 时 间 都 能 忽略 不 计 《 前 提 是 字典 或 者 集合 不 
超过 内 存 大 小 ) 。 可 以 仔细 看 看 跟 表 3-6 有 关 的 代码 ， 男 外 在 附录 A 的 
示例 A-1 中 还 有 相关 的 讨论 ， 


把 字典 和 集合 的 运行 速度 之 快 的 事实 抓 在 手 里 之 后 ， 让 我 们 来 看 看 它 背 
MAR, ABRAMA, ERRI AEEA 
KE 


3.9.2 ”字典 中 的 散 列 表 


这 一 节 笼 统 地 描述 了 Python 如 何 用 散 列 表 来 实现 dict 类 型 ， 有 些 细节 
RE~ 一 笔 带 过 ， 像 CPython 里 的 一 些 优 化 技巧 8 就 没有 提 到 。 但 是 总 体 
来 说 描述 术 是 准确 的 。 


8python 源码 dictobject.c HK Chttp://hg.python.org/cpython/file/tip/Objects/dictobject.c) HA 
富 的 注释 ， 另 外 延伸 阅读 中 有 对 《代码 之 美 》 一 书 的 引用 


和 为 了 简单 起 见 ， 这 里 先 集中 讨论 dict 的 内 部 结构 ， 然 后 再 延 
伸 到 集合 上 面 。 


散 列表 其 实 是 一 个 黎 琉 数组 〈 总 是 有 空白 元 素 的 数组 称 为 黎 琉 数组 ) 。 
在 一 般 的 数据 结构 教材 中 ， 散 列表 里 的 单元 通常 叫 作 表 元 (buckeb) 。 

在 dict 的 散 列表 当中 ， pee eh ee 每 个 表 元 都 有 两 
个 部 分 ， 一 个 是 对 键 的 引用 ， 男 一 个 是 对 值 的 引用 。 因 为 所 有 表 元 的 大 
小 一 致 ， 所 以 可 以 通过 仿 移 量 EIRENE, 


因为 Python 会 设法 保证 大 概 还 有 三 分 之 一 的 表 元 是 空 的 ， 所 以 在 快要 达 
到 这 个 羡 值 的 时 候 ， 原 有 的 散 列 表 会 被 复制 到 一 个 更 大 的 空间 里 面 。 


UR BE PST RBA BU MWA FG BET KPT A BE AL EL 
Python 中 可 以 用 hash() 方法 来 做 这 件 事情 ， 接 下 来 会 介绍 这 一 点 。 


01. 散 列 值 和 相等 性 


内 置 的 hash() 方法 可 以 用 于 所 有 的 内 置 类 型 对 象 。 如 果 是 自 定义 
对 象 调用 hash() 的 话 ， 实 际 上 运行 的 是 自 定义 的 _hash a 
iL ees NN reg 那 它 们 的 散 列 值 必须 相等 

则 散 列 表 就 不 能 正常 运行 了 。 例 如 ， 如 果 1 == 1.0 为 真 ， 那么 “ 

hash(1) == rash. 0) 也 必须 为 真 ， 但 其 实 这 两 个 数字 CEW 
和 浮 点 ) 的 内 部 结构 是 完全 不 一 样 的 。? 


为 了 让 散 列 值 能 够 胜任 散 列 表 索 引 这 一 角色 ， 它 们 必须 在 索引 空间 
中 尽量 分 散 开 来 。 这 意味 着 在 最 理想 的 状况 下 ， 越 是 相似 但 不 相等 
的 对 象 ， 它 们 散 列 值 的 差别 应 该 越 大 。 示 例 3-16 是 一 段 代 码 输 
出 ， 这 上段 代码 被 用 来 比较 散 列 值 的 二 进 制 表达 的 不 同 。 注 意 其 中 1 

的 散 列 值 是 相同 的 ， 而 1.0001、1.0002 和 1.0003 的 散 列 值 则 
常 不 同 。 


示例 3-16 在 32 位 的 Python 中，1、1.0001、1.0002 和 1.0003 
这 几 个 数 的 散 列 值 的 三 进 制 表达 对 比 (上 下 两 个 二 进 制 间 不 同 
的 位 被 ! 高 亮 出 来 ， 表 格 的 最 右 列 显示 了 有 多 少 位 不 相同 ) 


32-bit Python build 
00000OOOOOOOOOOOOOOOOOOOOOOOOOOL 


080808080000008000000000000000000001 
Poult 1 Il 1 |! LOOO] 
00101110101101010000101011011101 
00101110101101010000101011011101 


01011101011010100001010110111001 
! ! LOID P IPT 1= 


00001100000111110010000010010110 


02. 


用 来 计算 示例 3-16 的 程序 见于 附录 A。 尽 管 程序 里 大 部 分 代码 都 
r aa 考虑 到 完整 性 ， 我 还 是 把 全 部 的 代码 放 在 
示例 A-3 。 


` 从 Python 3.3 F4, str, bytes 和 datetime 对 象 的 散 

列 值 计 算 过 程 中 多 了 随机 的 “加 盐 ” 这 一 步 。 所 加 盐 值 是 Python 

进程 内 的 一 个 音量 ， 但 是 每 次 司 动 Python 解释 器 都 会 生成 一 个 

不 同 的 盐 值 。 随 机 盐 值 的 加 入 是 为 了 防止 DOS 攻击 而 采取 的 

一 种 安全 措施 。 在 hash 特殊 方法 的 文档 
(https://docs.python.org/3/reference/datamodel.html#object. hash ` 

里 有 相关 的 详细 信息 。 


了 解 对 象 散 列 值 相关 的 基本 概念 之 后 ， 我 们 可 以 深入 到 散 列表 工作 
原理 背后 的 算法 了 。 


散 列 表 算法 


为 了 获取 my_dict[search_key] 背后 的 值 ，Python 首先 会 调用 
hash(search_key) 来 计算 search_key 的 散 列 值 ， 把 这 个 值 最 低 
的 几 位 数字 当 作 偏 移 量 ， 在 散 列 表 里 查 找 表 元 (具体 取 几 位 ， 得 看 
当前 散 列 表 的 大 小 ，。 硅 找到 的 表 元 是 空 的 ， 则 抛 出 KeyError 噶 
常 。 若 不 是 空 的 ， 则 表 元 里 会 有 一 对 found_key :found_value。 
这 时 候 Python 会 检验 search_key == found key 是 否 为 真 ， 如 
果 它 们 相等 的 话 ， 就 会 返回 found_value。 


如 果 search_key 和 found_key 不 匹配 的 话 ， 这 种 情况 称 为 散 列 
冲突 。 发 生 这 种 情况 是 因为 ， 散 列表 所 做 的 其 实 是 把 随机 的 元 素 映 
射 到 只 有 几 位 的 数字 上 ， 而 散 列 表 本 身 的 索引 又 只 依赖 于 这 个 数字 
的 一 部 分 。 为 了 解决 散 列 冲突 ， 算 法 会 在 散 列 值 中 另外 再 取 几 位 ， 
然后 用 特殊 的 方法 处 理 一 下 ， 把 新 得 到 的 数字 再 当 作 索 引 来 寻找 表 
T. O 若 这 次 找到 的 表 元 是 空 的 ， 则 同样 抛 出 KeyError; 若非 
空 ， 或 者 键 匹 配 ， 则 返回 这 个 值 ; 或 者 又 发 现 了 散 列 冲突 ， 则 重复 
以 上 的 步骤 。 图 3-3 展示 了 这 个 算法 的 示意 图 。 


T 使 用 散 列 值 的 另 一 部 分 
PERSE 来 定位 散 列表 中 的 另行 


键 相等 ? 


返回 表 元 里 的 值 


Hutt KeyError 


图 3-3: 从 字典 中 取 值 的 算法 流程 图 ;给 定 一 个 键 ， 这 个 算法 要 
么 返回 一 个 值 ， 要 么 抛 出 KeyError 异常 


应 加 新 元 素 和 更 新 现 有 键 值 的 操作 几乎 跟 上 面 一 样 。 只 不 过 对 于 前 
者 ， 在 发 现 空 表 元 的 时 候 会 放 入 一 个 新 元 素 ; 对 于 后 者 ， 在 找到 相 
对 应 的 表 元 后 ， 原 表 里 的 值 对 象 会 被 蔡 换 成 新 值 。 


HIFEMA SHE, Python 可 能 会 按照 散 列 表 的 拥挤 程度 来 决定 是 
个 要 重新 分 配 内 存 为 它 扩容 。 如 宁 增 加 了 散 列 表 的 大 小 ， 那 散 列 值 
所 占 的 位 数 和 用 作 索 引 的 位 数 都 会 随 之 增加 ， 这 样 做 的 目的 是 为 了 
减少 发 生 散 列 冲突 的 概率 。 


表面 上 看 ， 这 个 算法 似乎 很 费事 ， 而 实际 上 束 算 dict 里 有 数 百 万 
个 元 素 ， 多 数 的 搜索 过 程 中 并 不 会 有 冲突 及 生 ， 平 均 下 来 每 次 搜索 
可 能 会 有 一 到 两 次 冲突 。 在 正常 情况 下 ， 束 算是 最 不 走运 的 键 所 过 
到 的 冲突 的 次 数 用 一 只 手 也 能 数 过 来 。 

了 解 dict 的 工作 原理 能 让 我 们 知道 它 的 所 长 和 所 短 ， 以 及 从 它 衍 


生 而 来 的 数据 类 型 的 优 缺 点 。 下 面 就 来 看 看 dict 这 些 特点 背后 的 
原因 。 


9 既然 提 到 了 整 型 ，CPython 的 实现 细节 里 有 一 条 是 : 如 果 有 一 个 整 型 对 象 ， 而 且 它 能 被 存 进 
一 个 机 器 字 中 ， 那 么 它 的 散 列 值 就 是 它 本 身 的 值 。 


0 在 散 列 冲突 的 情况 下 ， 用 C 语言 写 的 用 来 打 乱 散 列 值 位 的 算法 的 名 字 很 有 意思 ， 叫 
perturb。 详 见 CPython 源码 里 的 
dictobject.c (https://hg.python.org/cpython/file/tip/Objects/dictobject.c) o 


md 


3.9.3 dict 的 实现 及 其 导致 的 结果 
下 面 的 内 容 会 讨论 使 用 散 列 表 给 dict 带 来 的 优势 和 限制 都 有 哪些 。 
01. 键 必 须 是 可 散 列 的 

一 个 可 散 列 的 对 象 必 须 满足 以 下 要 求 。 


(1) 支持 hash() 函数 ， 并 且 通 过 hash_() 方法 所 得 到 的 散 列 
值 是 不 变 的 。 


(2) 文 持 通 过 eq__() 方法 来 检测 相等 性 。 
(3) 若 a == b 为 真 则 hash(a) == hash(b) HAH. 


所 有 由 用 户 自 定 义 的 对 象 默 认 都 是 可 散 列 的 ， 因 为 它们 的 散 列 值 由 
id() 来 获取 ， 而 且 它 们 都 是 不 相等 的 。 


Bs 如 果 你 实现 了 一 个 类 的 _ eq “方法 ， 并 且 和 希望 它 是 可 
散 列 的 ， 那 么 它 一 定 要 有 个 恰当 的 __hash 方法， 保证 在 a 
== b 为 真 的 情况 下 hash(a) == hash(b) 也 必定 为 真 。 否 则 
就 会 破坏 恒定 的 散 列 表 和 算法， 导致 由 这 些 对 象 所 组 成 的 字典 和 
集合 完全 失去 可 靠 性 ， 这 个 后 果 是 非常 可 怕 的 。 另 一 方面 ， 如 
果 一 个 含有 自 定义 的 __eq__ 依赖 的 类 处 于 可 变 的 状态 ， 那 就 
ee hash_ 方法， 因为 它 的 实例 是 不 可 散 
列 的 。 


02. 字典 在 内 存 上 的 开销 巨大 
由 于 字典 使 用 了 散 列表 ， 而 散 列 表 又 必须 是 稀疏 的 ， 这 导致 它 在 衬 


间 上 的 效率 低下 。 举 例 而 言 ， 如 果 你 需要 存放 数量 巨大 的 记录 ， 那 
么 放 在 由 元 组 或 是 具名 元 组 构成 的 列表 中 会 是 比较 好 的 选择 ， 最 好 


03. 


04. 


不 要 根据 ISON 的 风格 ， 用 由 字典 组 成 的 列表 来 存放 这 些 记 录 。 用 
元 组 取代 字典 就 能 节省 空间 的 原因 有 两 个 : 其 一 是 避免 了 散 列表 所 
E EEE E 
it o 


在 用 户 自 定义 的 类 型 中 ， ”slots ”属性 可 以 改变 实例 属性 的 存储 
方式 ， 由 dict 变 成 tuple， 相 关 细 节 在 9.8 节 会 谈 到 。 


记 住 我 们 现在 讨论 的 是 空间 优化 。 如 果 你 手头 有 几 百 万 个 对 象 ， 而 
你 的 机 器 有 几 个 GB 的 内 存 ， 那 么 空间 的 优化 工作 可 以 等 到 真正 需 
要 的 时 候 再 开始 计划 ， 因 为 优化 往往 是 可 维护 性 的 对 立 面 。 


键 查 询 很 快 


dict 的 实现 是 典型 的 空间 换 时 间 : 字典 类 型 有 着 巨大 的 内 存 开 
销 ， 但 它们 提供 了 无 视 数据 量 大 小 的 快速 访问 只 要 字典 能 被 装 
在 内 存 里 。 正 如 表 3-5 所 示 ， 如 果 把 字典 的 大 小 从 1000 个 元 素 增 
加 到 10 000 000 个 ， 查 询 时 间 也 不 过 是 原来 的 2.8 倍 ， 从 0.000163 
秒 增加 到 了 0.00456 秒 。 这 意味 着 在 一 个 有 1000 万 个 元 素 的 字典 
里 ， 每 秒 能 进行 200 万 个 键 查询 。 


键 的 次 序 取 雇 于 添加 顺序 


当 往 dict 里 添加 新 键 而 又 发 生 散 列 冲突 的 时 候 ， 新 键 可 能 会 被 安 
排 存 放 到 男 一 个 位 置 。 于 是 下 面 这 种 情况 就 会 发 生 : 由 
dict([key1, value1), (key2, value2)] 和 dict([key2， 
value2], [key1, value1]) 得 到 的 两 个 字典 ， 在 进行 比较 的 时 
候 ， 它 们 是 相等 的 ， 但 是 如 果 在 key1 和 key2 被 添加 到 字典 里 的 
人 


示例 3-17 展示 了 这 个 现象 。 这 个 示例 用 同样 的 数据 创建 了 3 个 字 
典 ， 唯 一 的 区 别 就 是 数据 出 现 的 顺 友 不 一 样 。 可 以 看 到 ， 虽 然 键 的 
次 序 是 乱 的 ， 这 3 个 字典 仍然 被 视 作 相等 的 。 


示例 3-17 dialcodes.py 将 同样 的 数据 以 不 同 的 顺序 添加 到 3 
个 字典 里 


# 世界 人 口 数量 前 16 位 国家 的 电话 区 号 

DIAL_CODES = [ 
(86, 'China'), 
(91, ‘India'), 
(1, ‘United States'), 
(62, 'Indonesia'), 
(55, ‘Brazil'), 
(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 
(7, 'Russia'), 
(81, ‘Japan'), 

] 


d1 = dict(DIAL_CODES) @ 

print('d1:', d1.keys()) 

d2 = dict(sorted(DIAL_CODES)) @ 

print('d2:', d2.keys()) 

d3 = dict(sorted(DIAL_CODES, key=lambda x:x[1])) © 
print('d3:', d3.keys()) 

assert d1 == d2 and d2 == d3 @ 


daa d1 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 人 口 排名 来 决定 


四 创建 d2 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 电话 区 号 来 决定 


d3 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 名 字 的 英文 拼写 来 
决定 的 。 


O 这 些 字典 是 相等 的 ， 因 为 它们 所 包含 的 数据 是 一 样 的 。 示 例 3- 
18 里 是 上 面 例子 的 输出 。 


dialcodes.py 的 输出 中 ，3 个 字典 的 键 的 顺序 是 不 


d1: dict_keys([880, 1, 86, 55, 7, 234, 91, 92, 62, 81]) 


d2: dict_keys([880, 1, 91, 86, 81, 55, 234, 7, 92, 62]) 
d3: dict_keys([880, 81, 1, 86, 55, 7, 234, 91, 92, 62]) 


05. 往 字 典 里 添加 新 键 可 能 会 改变 已 有 键 的 顺序 


无 论 何 时 往 字典 里 添加 新 的 键 ，Python 解释 器 都 可 能 做 出 为 字典 扩 
容 的 决定 。 扩 容 导 致 的 结 末 束 是 要 新 建 一 个 更 大 的 散 列 表 ， 并 把 字 
典 里 已 有 的 元 素 添加 到 新 表 里 。 这 个 过 程 中 可 能 会 发 生 新 的 散 列 冲 
突 ， 导 致 新 散 列表 中 键 的 次 序 变化 。 要 注意 的 是 ， 上 面 提 到 的 这 些 
变化 是 否 会 发 生 以 及 如 何 发 生 ， 郑 依赖 于 字典 背后 的 具体 实现 ， 因 
此 你 不 能 很 目 信 地 说 自己 知道 背后 发 生 了 什么 。 如 果 你 在 迭代 一 个 
字典 的 所 有 键 的 过 程 中 同时 对 字典 进行 修改 ， 那 么 这 个 循环 很 有 可 
能 会 跳 过 一 些 键 一 一 甚至 是 跳 过 那些 字典 中 已 经 有 的 键 。 


由 此 可 知 ， 不 要 对 字典 同时 进行 达 代 和 修改 。 如 果 想 扫 插 并 修改 一 
个 字典 ， 最 好 分 成 两 步 来 进行 ， 首先 对 字典 兴 代 ， 以 得 出 需要 添加 
的 内 容 ， 把 这 些 内 容 放 在 一 个 新 字典 里 ， 友 代 络 束 之 后 再 对 原 有 字 
典 进行 更 新 。 


本 在 Python 3 中 ，.keys()、.items() 和 .values() Ù 
法 返回 的 都 是 字典 视图 。 也 就 是 说 ， 这 些 方 法 返回 的 值 更 像 集 
合 ， 而 不 是 像 Python 2 那样 返回 列表 。 视 图 还 有 动态 的 特性 ， 
它们 可 以 实时 反馈 字典 的 变化 。 


现在 已 经 可 以 把 学 到 的 有 关 散 列表 的 知识 应 用 在 集合 上 面 了 。 


3.9.4 ”set 的 实现 以 及 导致 的 结果 

set 和 frozenset 的 实现 也 依赖 散 列 表 ， 但 在 它们 的 散 列 表 里 存放 的 
只 有 元 素 的 引用 《就 像 在 字典 里 只 存放 键 而 没有 相应 的 值 ) 。 在 set 加 
入 到 Python 之 前 ， 我 们 都 是 把 字典 加 上 无 意义 的 值 当 作 集 合 来 用 的 。 


在 3.9.3 节 中 所 提 到 的 字典 和 散 列 表 的 几 个 特点 ， 对 集合 来 说 几乎 都 是 
适用 的 。 为 了 避免 太 多 重复 的 内 容 ， 这 些 特点 总 结 如 下 。 


。 集合 里 的 元 素 必 须 是 可 散 列 的 。 
。 集合 很 消耗 内 存 。 
。 可 以 很 高 效 地 判断 元 素 是 否 存在 于 东 个 集合 。 


。 TURN KE RF Baas EISEN OF 
。 往 集合 里 添加 元 素 ， 可 能 会 改变 集合 里 已 有 元 聚 的 次 序 。 


3.10 ”本章 小 结 


字典 算得 上 是 Python 的 基石 。 除 了 基本 的 dict 之 外 ， 标 准 库 还 提供 现 
成 且 好 用 的 特殊 映射 类 型 ， 比 如 
defaultdict、OrderedDict、ChainMap 和 Counter。 这 些 映 射 类 型 
都 属于 collections 模块 ， 这 个 模块 还 提供 了 便于 扩展 的 UserDict 
类 


FJ o 


大 多 数 映 射 类 型 都 提供 了 两 个 很 强大 的 方法 : setdefault 和 

update. setdefault 方法 可 以 用 来 更 新 字典 里 存放 的 可 变 值 〈 比 如 列 
表 ) ， 从 而 避免 了 重复 的 键 搜索 。update 方法 则 让 批量 更 新 成 为 可 
能 ， 它 可 以 用 来 插入 新 值 或 者 更 新 已 有 键 值 对 ， 它 的 参数 可 以 是 包含 
(key, value) XP EIHAR R, KEKET. WAJRA 
的 构造 方法 也 会 利用 update 方法 来 让 用 户 可 以 使 用 别 的 映射 对 象 、 可 
迭代 对 象 或 者 关键 字 参 数 来 创建 新 对 象 。 


在 映射 类 型 的 API 中 ， 有 个 很 好 用 的 方法 是 missing ， 当 对 象 找 
不 到 某 个 键 的 时 候 ， 可 以 通过 这 个 方法 自 定义 会 发 生 什么 。 


collections .abc 模块 提供 了 Mapping 和 MutableMapping 这 两 个 抽 
象 基 类 ， 利 用 它们 ， 我 们 可 以 进行 类 型 查询 或 者 引用 。 不 太 为 人 所 知 的 
MappingProxyType 可 以 用 来 创建 不 可 变 映 射 对 象 ， 它 被 封装 在 types 
模块 中 。 另 外 还 有 Set 和 MutableSet 这 两 个 抽象 基 类 。 


dict 和 set 背后 的 散 列 表 效 率 很 高 ， 对 它 的 了 解 越 深 入 ， 惑 越 能 理解 
为 什么 被 保存 的 元 素 会 呈现 出 不 同 的 顺序 ， 以 及 已 有 的 元 素 顺 序 会 发 生 
变化 的 原因 。 同 时 ， 速 度 是 以 牺牲 空间 为 代价 而 换 来 的 。 


3.11 延伸 阅读 


Python 标准 库 中 的 “8.3. collections—Container datatypes” 一 节 
(https://docs.python.org/3/library/collections.html) 提 到 了 关于 一 些 映射 
类 型 的 例子 和 使 用 技巧 。 如 果 想 要 创建 新 的 映射 类 型 ， 或 者 是 体会 一 下 
现 有 的 映射 类 型 的 实现 方式 ，Python 模块 Lib/collections/__init__.py 

的 源码 是 一 个 很 好 的 参考 。 


《Python Cookbook (26 3 fi) 中 文 片 》 (David Beazley 和 Brian K. Jones 
网 中 有 20 个 关于 数据 结构 的 使 用 技巧 ， 大 多 数 都 在 讲 dict 
巧妙 用 法 。 


“Python 的 字典 类 : 如 何 打 造 全 能 战士 ”是 《代码 之 美 》 第 18 章 的 标 

题 ， 这 一 草 集中 解释 了 Python 字典 背后 的 工作 原理 。A.M. Kuchling 是 

这 一 章 的 作者 ， 同 时 他 还 是 Python 的 核心 开发 者 ， 并 撰写 了 很 多 Python 

的 官方 文档 和 指南 。 同 时 CPython 模块 里 的 dictobject.c 源 文件 
(https://hg.python.org/cpython/file/tip/Objects/dictobject.c〉 还 提供 了 大 量 

的 注释 。Brandon Craig Rhodes 的 讲座 “The Mighty 

Dictionary” (http://pyvideo.org/video/276/the-mighty-dictionary-55〉 对 散 列 

表 做 了 很 精彩 的 讲解 ， 有 趣 的 是 他 的 幻灯 片 里 也 包含 了 大 量 的 表格 。 


关于 为 什么 要 在 语言 里 加 入 集合 这 种 数据 类 型 ， 当 初 也 是 有 一 番 考 量 
的 。 具 体 情 况 在 “PEP 218 — Adding a Built-In Set Object 

Type” (https://www.python.org/dev/peps/pep-0218/) 中 有 所 记录 。 在 PEP 
128 刚刚 通过 的 时 候 ， 还 没有 针对 set 的 特殊 字面 量 句 法 。 后 来 Python 
3 里 加 入 了 对 set 字面 量 句 法 的 文 持 ， 然 后 这 个 实现 又 被 向 后 兼容 到 了 
Python 2.7 里 ， 同 时 被 移植 的 还 有 dict 和 set 推导 。“PEP 274 一 Dict 
Comprehensions” (https://www.python.org/dev/peps/pep-0274/) 就 是 字典 
推导 的 出 生 证 ;然而 我 找 不 到 任何 关于 集合 推导 的 PEP， 当 然 很 有 可 能 
是 因为 这 两 个 功能 太 接 近 了 。 


SIR 


我 的 朋友 Geraldo Cohen 曾经 说 过 ，Python 的 特点 是 “简单 而 正 
确 ”。 


ae 


dict 类 型 正 是 这 一 特点 的 完美 体现 一 一 对 它 的 优化 只 为 一 个 目 

标 : 更 好 地 实现 对 随机 键 的 读 取 。 而 优化 的 结果 非常 好 ， 由 于 速度 
快 而 且 够 健壮 ， 它 大 量 地 应 用 于 Python 的 解释 器 当中 。 如 果 对 排序 
有 要 求 ， 那 么 还 可 以 选择 orderedDict。 然 而 对 于 映射 类 型 来 说 ， 
保持 元 素 的 顺序 并 不 是 一 个 常用 需求 ， 因 此 会 把 它 排除 在 核心 功能 
之 外 ， 而 以 标准 库 的 形式 提供 其 他 衍生 的 类 型 。 


与 之 形成 鲜明 对 比 的 是 PHP。 在 PHP 手册 中 ， 数 组 的 描述 如 下 
Chttp://php.net/manual/en/language.types.array.php) : 


PHP 中 的 数组 实际 上 是 一 个 有 序 的 映射 一 一 映射 类 型 存放 的 是 
键 值 对 。 这 个 映射 类 型 被 优化 为 可 充当 不 同 的 角色 。 它 可 以 当 
作 数 组 、 列 表 (向量) 、 散 列表 映射 类 型 的 一 种 实现 ) 、 字 
典 、 集 合 类 型 、 栈 、 队 列 或 其 他 可 能 的 数据 类 型 。 


单 攒 这 段 话 ， 我 无 法 想象 PHP 把 1ist 和 OrderedDict 混合 实现 
的 成 本 有 多 大 。 


本 书 前 两 章 的 目的 是 展示 Python 中 的 集合 类 型 为 特定 的 使 用 场景 做 
了 怎样 的 优化 。 我 特意 强调 了 在 list 和 dict 的 常规 用 法 之 外 还 
有 那些 特殊 的 使 用 情景 。 


在 过 到 Python 之 前 ， 我 主要 使 用 Perl. PHP 和 JavaScript 做 网 站 开 
发 。 我 很 喜欢 这 些 语言 中 跟 映 射 类 型 相关 的 字面 量 句 法 特性 。 某 些 
时 候 我 不 得 不 使 用 Java FC, FA Ja BRS IE HE a REE. 
用 的 映射 类 型 的 字面 量 句 法 可 以 帮助 开发 者 轻松 实现 配置 和 表格 相 
关 的 开发 ， 也 能 让 我 们 很 方便 地 为 原型 开发 或 者 测试 准备 好 数据 容 
7 Java HF IRA IK MATE, AVE FS 8 BOTY XML OR FF 
Le 


JSON 被 当 作 “瘦身 版 XML” Chttp://www.json.org/fatfree.html) 。 在 
很 多 情景 下 ，JSON 都 成 功 取代 了 XML。 由 于 拥有 紧凑 的 列表 和 字 
典 表达 ，JSON 格式 可 以 完美 地 用 于 数据 交换 。 


PHP 和 Ruby 的 散 列 语法 借鉴 了 Perl， 它 们 都 用 => 作为 键 和 值 的 连 
接 。JavaScript 则 从 Python 那儿 偷 师 ， 使 用 了 :。 而 JSON 又 从 
JavaScript 发 展 而 来 ， 它 的 语法 正好 是 Python 句法 的 子 集 。 因 此 ， 
除了 在 true. false 和 null 这 几 个 值 的 拼写 上 有 出 入 之 外 ， 


JSON 和 Python 是 完全 兼容 的 。 于 是 ， 现 在 大 家 用 来 交换 数据 的 格 
式 全 是 Python 的 dict 和 list. 


简单 而 正确 。 


第 4 章 文本 和 学 市 序列 


人 类 使 用 文本 ， 计 算 机 使 用 字 节 序列 。1 


Esther Nam 和 Travis Fischer 
“Character Encoding and Unicode in Python” 


'PyCon 2014, “Character Encoding and Unicode in Python 演讲 的 第 12 KZT A [ 幻灯 片 
Chttp://www.slideshare. net/fischertrav/character-encoding-unicode-how-to-with-dignity-33352863) ， 
视频 Chttp!//pyvideo.org/pycon-us-2014/character-encoding-and-unicode-in-python.html) ]. 


Python 3 明确 区 分 了 人 类 可 读 的 文本 字符 串 和 原始 的 字 节 序列 。 隐 式 地 
把 字 节 序列 转换 成 Unicode 文本 已 成 过 去 。 本 章 将 要 讨论 Unicode 字符 
串 、 二 进 制 序列 ， 以 及 在 二 者 之 间 转 换 时 使 用 的 编码 。 


深入 理解 Unicode 对 你 可 能 十 分 重要 ， 也 可 能 无 天 紧要 ， 这 取决 于 
Python 编程 的 场景 。 说 到 底 ， 本 章 涵盖 的 问题 对 只 处 理 ASCI 文本 的 程 
序 员 没 有 影响 。 但 是 即便 如 此 ， 也 不 能 避 而 不 谈 字 符 串 和 字 贡 序列 的 区 
别 。 此 外 ， 你 会 发 现 专门 的 二 进 制 序列 类 型 所 提供 的 功能 ， 有 些 是 
Python 2 中 “全 功能 ”的 str 类 型 不 具有 的 。 


本 章 将 讨论 下 述 话 题 : 


。 字符 、 码 位 和 字 节 表述 


。bytes、bytearray 和 memoryview 等 二 进 制 序列 的 独特 特性 
。 全 部 Unicode 和 陈旧 字符 集 的 编 解码 器 

。 避免 和 人 处理 编 码 错误 

。 处 理 文本 文件 的 最 佳 实践 

。 默 认 编 码 的 陷阱 和 标准 IO 的 问题 

o 规范 化 Unicode 文本 ， 进 行 安全 的 比较 


。 PAL. Keb Sit RTI FS KH K 
。 使 用 locale 模块 和 PyUCA 库 正 确 地 排序 Unicode 文本 
。 Unicode 数据 库 中 的 字符 元 数据 
。 能 处 理 字符 串 和 字 节 序列 的 双 模 式 API 
接 下 来 先 从 字符 、 码 位 和 字 节 序列 开始 。 


4.1 字符 问题 


“字符 串 "是 个 相当 简单 的 概念 : 一 个 字符 串 是 一 个 字符 序列 。 问 题 出 
在 "字符 "的 定义 上 。 


在 2015 Œ, “字符 ”的 最 佳 定 义 是 Unicode 字符 。 因 此 ， 从 Python 3 的 
str 对 象 中 获取 的 元 素 是 Unicode 字符 ， 这 相当 于 从 Python 2 的 

unicode 对 象 中 获取 的 元 素 ， 而 不 是 从 Python 2 的 str 对 象 中 获取 的 原 
台 字 他 序列 。 


Unicode 标准 把 字符 的 标识 和 具体 的 字 节 表述 进行 了 如 下 的 明确 区 分 。 


字符 的 标识 ， 即 码 位 ， 是 0~1 114111 的 数字 〈 十 进 制 ) ， 在 
Unicode 标准 中 以 4~6 个 十 六 进 制 数 字 表 示 ， 而 且 加 前 级“U+”。 例 
如 ， 字 母 A 的 码 位 是 U+0041， 欧 元 符号 的 码 位 是 Ut20AC， 高 音 
谱 号 的 码 位 是 U+1D11E。 在 Unicode 6.3 中 (这 是 Python 3.4 使 用 的 
标准 ) ， 约 10% 的 有 效 码 位 有 对 应 的 字符 。 


字符 的 具体 表述 取决 于 所 用 的 编码 。 编 码 是 在 码 位 和 字 节 序列 之 间 
转换 时 使 用 的 算法 。 在 UTF-8 编码 中 ，A〈U+0041) 的 码 位 编码 成 
单个 字 节 \x41， 而 在 UTF-16LE 编码 中 编码 成 两 个 字 节 
\Xx41\Xx66。 再 举 个 例子 ， 欧 元 符号 〈U+20AC) 在 UTF-8 编码 中 是 
三 个 字 节 一 \xe2\x82\xac， 而 在 UTF-16LE 中 编码 成 两 个 字 
“HW: \xac\x20. 


把 码 位 转换 成 字 节 序列 的 过 程 是 编码 ; 把 字 节 序列 转换 成 码 位 的 过 程 是 
解码 。 示 例 4-1 阐释 了 这 一 区 分 。 


示例 4-1 编码 和 解码 


>>> s = 'café' 

>>> len(s) # © 

4 

>>> b = s.encode('utf8') # © 
>>> b 

b'caf\xc3\xa9' # © 

>>> len(b) # © 


5 
>>> b.decode('utf8') # O 
"café 


Q 'café' 字符 串 有 4 个 Unicode 字符 。 
© 使 用 UTF-8 把 str 对 象 编码 成 bytes 对 象 。 
© bytes 字面 量 以 b 开头 。 


O 字 节 序列 b 有 5 个 字 节 《在 UTF-8 中 ,，“é” 的 码 位 编码 成 两 个 字 
TI g 


© 使 用 UTF-8 把 bytes 对 象 解码 成 str WR. 


AI 如 果 想 帮助 自己 记 住 .decode() 和 .encode() 的 区 别 ， 可 
DA FEAR A Fp Si AE aE MEE Ts LAS oS Fe fit, FE Unicode 字符 串 想 
成 “人 类 可 读 ” 的 文本 。 那 么 ， 把 字 节 序列 变 成 人 类 可 读 的 文本 字符 
串 束 是 解码 ， 而 把 字符 串 变 成 用 于 存储 或 传输 的 字 节 序列 就 是 编 
码 。 


虽然 Python 3 的 str 类 型 基本 相当 于 Python 2 的 unicode 类 型 ， 只 不 
过 是 换 了 个 新 名 称 ， 但 是 Python 3 的 bytes 类 型 却 不 是 把 str 类 型 换 
个 名 称 那 么 简单 ， 而 且 还 有 关系 紧密 的 bytearray 类 型 。 因 此 ， 在 讨 
论 编 码 和 解码 的 问题 之 前 ， 有 必要 先 来 介绍 一 下 二 进 制 序列 类 型 。 


42 ”人 字 节 概要 


新 的 二 进 制 序列 类 型 在 很 多 方面 与 Python 2 的 str 类 型 不 同 。 首 先 要 知 
道 ，Python 内 置 了 两 种 基本 的 二 进 制 序列 类 型 ， Python 3 引入 的 不 可 变 
bytes 类 型 和 Python 2.6 添加 的 可 变 bytearray RA. (Python 2.6 也 
引入 了 bytes 类 型 ， 但 那 只 不 过 是 str 类 型 的 别名 ， 与 Python 3 的 
bytes 类 型 不 同 。) 


bytes 或 bytearray 对 象 的 各 个 元 素 是 介 于 0~255 (E) 之 间 的 整 

数 ， 而 不 像 Python 2 的 str 对 象 那样 是 单个 的 字符 。 然 而 ， 二 进 制 序列 
包括 长 度 为 1 的 切片 ， 如 示例 4- 
2 所 不 。 


示例 4-2 包含 5 个 字 节 的 bytes 和 bytearray WR 


>>> cafe = bytes('café', encoding='utf 8') © 
>>> cafe 

b'caf\xc3\xa9' 

>>> cafe[6] @ 

99 

>>> cafe[:1] © 


b'c' 

>>> cafe_arr = bytearray(cafe) 
>>> cafe_arr © 
bytearray(b'caf\xc3\xa9' ) 

>>> cafe_arr[-1:] © 
bytearray(b'\xa9') 


@ bytes 对 象 可 以 从 str 对 象 使 用 给 定 的 编码 构建 。 
四 各 个 元 素 是 range(256) 内 的 整数 。 
© bytes 对 象 的 切片 还 是 bytes 对 象 ， 即 使 是 只 有 一 个 字 节 的 切片 。 


© bytearray 对 象 没有 字面 量 句法 ， 而 是 以 bytearray() 和 字 节 序列 
字面 量 参数 的 形式 显示 。 


@ bytearray 对 象 的 切片 还 是 bytearray 对 象 。 


iN my bytes[@] 获取 的 是 一 个 整数 ， 而 my_bytes[:1] 返回 的 

是 一 个 长 度 为 1 的 bytes 对 象 一 一 这 一 点 应 该 不 会 让 人 意 

外 。s[8] == s[:1] 只 对 str 这 个 序列 类 型 成 立 。 不 过 ，str 类 

型 的 这 个 行为 十 分 罕见 。 对 其 他 各 个 序列 类 型 来 说 ，s[i] 返回 一 

os 而 s[i:i+l] 返回 一 个 相同 类 型 的 序列 ， 里 面 是 s[i] 元 
虽然 二 进 制 序列 其 实 是 整数 序列 ， 但 是 它们 的 字面 量 表示 法 表明 其 中 有 
ASCI 文 本 。 因 此 ， 各 个 字 节 的 值 可 能 会 使 用 下 列 三 种 不 同 的 方式 显 
Fo 


ae 0% -000 


。 制 表 符 、 换 行 符 、 回 车 符 和 \ 对 应 的 字 节 ， 使 用 转 义 序列 
\t、\n、\r 和 \\。 


。 其 他 字 节 的 值 ， 使 用 十 六 进 制 转 义 序列 (例如 ，\xee 是 空 字 
节 ) 。 


因此 ， 在 示例 4-2 中 ， 我 们 看 到 的 是 b caf\xc3\xa9': 前 3 个 字 节 
b'caf' 在 可 打印 的 ASCI 范围 内 ， 后 两 个 字 节 则 不 然 。 


除了 格式 化 方法 (format 和 format_map) 和 几 个 处 理 Unicode 数据 的 
方法 (包括 
casefold、isdecimal、isidentifier、isnumeric、isprintable 
和 encode) 之 外 ，str 类 型 的 其 他 方法 都 文 持 bytes 和 bytearray 类 
型 。 这 意味 着 ， 我 们 可 以 使 用 熟悉 的 字符 串 方 法 处 理 二 进 制 序列 ， 如 
endswith, replace, strip, translate, upper 等 ， 只 有 少数 几 个 
其 他 方法 的 参数 是 bytes 对 象 ， 而 不 是 str 对 象 。 此 外 ， 如 果 正 则 表 
达 式 编译 自 二 进 制 序列 而 不 是 字符 串 ，re 模块 中 的 正则 表达 式 函 数 也 
能 处 理 二 进 制 序列 。Python 3.0~3.4 不 能 使 用 % 运算 符 处 理 二 进 制 序 
列 ， 但 是 根据 “PEP 461—Adding % formatting to bytes and 

bytearray” Chttps://www.python.org/dev/peps/pep-0461/) ，Python 3.5 应 该 
会 文 持 。 


二 进 制 序列 有 个 类 方法 是 str 没有 的 ， 名 为 fromhex， 它 的 作用 是 解 
析 十 六 进 制 数 字 对 (数字 对 之 则 的 空格 是 可 选 的 ) ， 构 建 二 进 制 序列 : 


>>> bytes.fromhex('31 4B CE A9') 
b'1K\xce\xa9' 


构建 bytes 或 bytearray 实例 还 可 以 调用 各 自 的 构造 方法 ， 传 入 下 述 


参 
。 一 个 str 对象 和 一 个 encoding 关键 字 参 数 。 
。 SHITE RR, Fete 0~255 之 间 的 数值 。 


。 一 个 整数 ， 使 用 空 学 市 创建 对 应 长 度 的 二 进 制 序 列 。[Python 3.5 会 
把 这 个 构造 方法 标记 为 “过 时 的 "，Python 3.6 会 将 其 删除 。 参 
风 “PEP 467 一 Minor API improvements for binary 
sequences” Chttps://www.python.org/dev/peps/pep-0467/) o ] 


。 SCH ST BaP PP ML AT RR CHU 
bytes. bytearray. memoryview. array.array) ; 此 时 ， 把 
源 对 象 中 的 字 节 序列 复制 到 新 建 的 二 进 制 序列 中 。 


使 用 缓冲 类 对 象 构 建 二 进 制 序列 是 一 种 低层 操作 ， 可 能 涉及 类 型 转换 。 
示例 4-3 做 了 演示 。 


示例 4-3 ”使 用 数组 中 的 原始 数据 初始 化 bytes 对 象 


>>> import array 
>>> numbers = array.array('h'，[-2，-1，6，1，2]) © 


>>> octets = bytes(numbers) @ 
>>> octets 
b'\xfe\xff\xfFf\xfF\x00\x00\x01\x80\xe2\xe0' © 


@ 指定 类 型 代码 h， 创 建 一 个 短 整 数 (16 位 ) 数组 。 
@ octets 保存 组 成 numbers 的 字 节 序列 的 副本 。 


O 这 些 是 表示 那 $ 个 短 整 数 的 10 个 字 节 。 


使 用 缓冲 类 对 象 创 建 bytes 或 bytearray 对 象 时 ， 始 终 复制 源 对 象 中 
的 字 节 序列 。 与 之 相反 ，memoryview 对 象 允 许 在 二 进 制 数据 结构 之 间 
共享 内 存 。 如 果 想 从 二 进 制 序 列 中 提取 结构 化 信息 ，struct 模块 是 重 
要 的 工具 。 下 一 节 会 使 用 这 个 模块 处 理 bytes 和 memoryview 对 象 。 


结构 体 和 内 存 视图 


struct 模块 提供 了 一 些 函 数 ， 把 打包 的 字 节 序列 转换 成 不 同类 型 字段 
组 成 的 元 组 ， 还 有 一 些 函 数 用 于 执行 反 回 转换 ， 把 元 组 转换 成 打包 的 字 
节 序 列 。struct 模块 能 处 理 bytes, bytearray 和 memoryview 对 
象 。 


如 2.9.2 节 所 述 ，memoryview 类 不 是 用 于 创建 或 存储 字 节 序列 的 ， 而 
是 共享 内 存 ， 让 你 访问 其 他 二 进 制 序列 、 打 包 的 数组 和 缓冲 中 的 数据 切 
片 ， 而 无 需 复制 字 节 序 列 ， 例 如 Python Imaging Library (PIL) “就 是 这 
样 处 理 图 像 的 。 


Pillow Chttps://pillow.readthedocs.org/en/latest/) 是 PIL 最 活跃 的 派生 库 。 


示例 4-4 展示 了 如 何 使 用 memoryview 和 struct 提取 一 个 GIF 图 像 的 


宽度 和 高 度 。 
示例 4-4 使 用 memoryview 和 struct 查看 一 个 GIF 图 像 的 首部 


>>> import struct 

>>> fmt = '<3s3sHH' # Q 

>>> with open('filter.gif', 'rb') as fp: 
img = memoryview(fp.read()) #@ 


>>> header = img[:10] # © 


>>> bytes(header) # © 
b'GIF89a+\x@2\xe6\xee' 

>>> struct.unpack(fmt, header) # © 
(b'GIF', b'89a', 555, 230) 

>>> del header # O 

>>> del img 


@ 结构 体 的 格式 : < 是 小 字 节 序 ，3s3s 是 两 个 3 字 节 序列 ，HH 是 两 个 
16 位 二 进 制 整数 。 


O 使 用 内 存 中 的 文件 内 容 创建 一 个 memoryview 对 象 .…… 


全 .…... 人 然后 使 用 它 的 切片 再 创建 一 个 memoryview TR; KEARSE 
制 字 节 序列 。 


O 转换 成 字 节 序列 ， 这 只 是 为 了 显示 ; 这 里 复制 了 10 字 市 。 


O 拆 包 memoryview 对 象 ， 得 到 一 个 元 组 ， 包 含 类 型 、 版 本 、 宽 度 和 


高 度 。 
@ 删除 引用 ， 释 放 memoryview 实例 所 占 的 内 存 。 


注意 ，memoryview 对 象 的 切片 是 一 个 新 memoryview WR, MAAS 
复制 字 节 序列 。[ 本 书 的 技术 审 校 之 一 Leonardo Rochael 指出 ， 如 果 使 

用 mmap 模块 把 图 像 打 开 为 内 存 映 射 文件 ， 那 么 会 复制 少量 字 节 。 本 书 
不 会 讨论 mmap， 如 果 你 经 常 读 取 和 修改 二 进 制 文件 ， 可 以 阅读 “mmap 

—Memory-mapped file 

support” (https://docs.python.org/3/library/mmap.html) 来 进一步 学 习 。] 


本 书 不 会 深入 介绍 memoryview 和 struct 模块 ， 如 果 要 处 理 二 进 制 数 
据 ， 可 以 阅读 它们 的 文档 : “Built-in Types » Memory 

Views” Chttps://docs.python.org/3/library/stdtypes.html#memory-views ) 

和 “struct 一 Interpret bytes as packed binary 

data” Chttps://docs.python.org/3/library/struct.html) 。 


简要 探讨 Python 的 二 进 制 序列 类 型 之 后 ， 下 面 说 明 如 何在 它们 和 字符 串 
之 间 转 换 。 


4.3 FEA Se EAS ae 


Python Á r SB 100 种 编 解码 器 (codec, encoder/decoder) ， 用 于 在 
文本 和 字 节 之 间 相 互 转换 。 每 个 编 解码 器 都 有 一 个 名 称 ， 如 'utf_8'， 
而 且 经 常 有 几 个 别名 ， 如 'utf8'、'utf-8' 和 'U8'。 这 些 名 称 可 以 传 
给 open()、str.encode()、bytes.decode() 等 函数 的 encoding & 
BX. ANB 4-5 使 用 3 个 编 解码 器 把 相同 的 文本 编码 成 不 同 的 字 节 序列 。 


示例 4-5 ”使 用 3 个 编 解码 器 编码 字符 串 “EI Niao"， 得 到 的 字 节 序 
列 差异 很 大 


>>> for codec in ['latin_1', ‘utf_8', ‘utf_16']: 
print(codec, 'El Nifio'.encode(codec), sep='\t') 


latin 1 b'El Ni\xfio' 
utf 8  b'El Ni\xc3\xbio' 
utf 16 b'\xff\xfeE\x@@1\x@@ \x@O@N\x@0i\x00\xFf1\x@0@0\xee' 


图 4-1 展示 了 不 同 编 解 码 器 对 “A” 和 高 音 谱 号 等 字符 编码 后 得 到 的 字 节 
序列 。 注 意 ， 后 3 种 是 可 变 长 度 的 多 字 节 编码 。 


code point ascii latin1 cp1252 cp437 gb2312 utf-16le 
A U+0041 41 41 41 41 41 41 41 00 
é U+00BF $ BF BF A8 ka C2 BF BF 00 
A  U+00C3 $ c3 c3 Z a C3 83 c3 00 
á U+00E1 * E1 E1 AO A8 A2 C3 A1 E1 00 
Q — U+03A9 x z = EA A6 B8 CE AQ A9 03 
d U+06BF x X ig * $ DA BF BF 06 
3 U+201C x ¥ 93 党 Ai BO E2 80 9C 1C 20 
€ U+20AC ig 2 80 ğ x E2 82 AC AC 20 
r  U+250C * * * DA A9 BO E2 94 8C OC 25 
=  U+6C14 a Y x 4 C6 F8 E6 BO 94 14 6C 
Eai U+6C23 * s bg = a E6 BO A3 23 6C 
é U+1D11E * = * = id FO 9D 84 9E 34 D8 1E DD 


图 4-1: 12 个 字符 ， 它 们 的 码 位 及 不 同 编码 的 字 节 表述 (十 六 进 
制 ， 星 号 表明 该 编码 不 支持 表示 该 字符 ) 


图 4-1 中 的 星 号 表明 ， 某 些 编码 (如 ASCH 和 多 字 节 的 GB2312) 不 能 
表示 所 有 Unicode 字符 。 然 而 ，UTEF 编码 的 设计 目的 就 是 处 理 每 一 个 
Unicode 人 码 位 。 

图 4-1 中 展示 的 是 一 些 典型 编码 ， 介 绍 如 下 。 

latin1( 即 iso8859 1) 


一 种 重要 的 编码 ， 是 其 他 编码 的 基础 ， 例 如 cp1252 和 
Unicode (注意 ，latinl 与 cp1252 的 字 节 值 是 一 样 的 ， 甚 至 连 码 位 也 
相同 ) 。 


cp1252 

Microsoft 制定 的 latini 超 集 ， 添 加 了 有 用 的 符号 ， 例 如 弯 引 号 和 
€ (KRIG) ; 有 些 Windows 应 用 把 它 称 为 “ANSIF”， 但 它 并 不 是 ANSI 标 
准 。 
cp437 


IBM PC 最 初 的 字符 集 ， 包 含 框图 符号 。 与 后 来 出 现 的 1atin1 不 
FEA 


gb2312 


用 于 编码 简体 中 文 的 陈旧 标准 ;这 是 亚洲 语言 中 使 用 较 广泛 的 多 字 
市 编码 之 一 。 


utf-8 


目前 Web 中 最 常见 的 8 位 编码 ;3 与 ASCI 兼容 ( 纯 ASCII 文本 是 
有 效 的 UTF-8 文本 ) 。 


3W3Techs 发 布 的 “Usage of character encodings for 

websites” Chttps://w3techs.com/technologies/overview/character_encoding/all) 报告 指出 ， 和 截至 2014 
年 9 月 ，81.4% 的 网 站 使 用 UTF-8， 而 Built With 发 布 的 "Encoding Usage 

Statistics” Chttp//trends.builtwith.com/encoding) 估计 的 比例 则 是 79.4% 。 


utf-16le 


UTF-16 的 16 位 编码 方案 的 一 种 形式 ; 所 有 UTF-16 文 持 通 过 转 义 
序列 〈 称 为 “代理 对 ”，surrogate pair) 表示 超过 U+FFFF 的 人 码 位 。 


Be UTF-16 取代 了 1996 年 发 布 的 Unicode 1.0 编码 CUCS-2) 。 
这 个 编码 在 很 多 系统 中 仍 在 使 用 ， 但 是 支持 的 最 大 人 码 位 是 
U+FFFF。 从 Unicode 6.3 起 ， 分 配 的 码 位 中 有 超过 50% 在 U+10000 
以 上 ， 包 括 逐 渐 流 行 的 表情 符号 (emoji pictograph) 。 


概述 常规 的 编码 之 后 ， 下 面 要 处 理 编码 和 解码 过 程 中 存在 的 问题 。 


4.4 T fe Sa Hee AS fr) sel 


虽然 有 个 一 般 性 的 UnicodeError 异常 ， 但 是 报告 错误 时 几乎 都 会 指明 
具体 的 异常 : UnicodeEncodeError (把 字符 串 转 换 成 二 进 制 序列 时 ) 
或 UnicodeDecodeError( 把 二 进 制 序列 转换 成 字符 串 时 ) 。 如 果 源 码 
的 编码 与 预期 不 人 符 ， 加 载 Python 模块 时 还 可 能 抛 出 SyntaxError。 接 
下 来 的 几 节 说 明 如 何 处 理 这 些 错误 。 


~I 出 现 与 Unicode 有 关 的 错误 时 ， 首 先 要 明确 异常 的 类 型 。 导 
致 编码 问题 的 是 UnicodeEncodeError, UnicodeDecodeError, 
还 是 如 SyntaxError 的 其 他 错误 ? 解决 问题 之 前 必须 清楚 这 一 


INO 


4.4.1 ”处理 UnicodeEncodeError 


多 数 非 UTF 编 解 码 器 只 能 处 理 Unicode 字符 的 一 小 部 分 子 集 。 把 文本 转 
换 成 字 节 序列 时 ， 如 果 目 标 编码 中 没有 定义 某 个 字符 ， 那 就 会 抛 出 
UnicodeEncodeError 异常 ， 除 非 把 errors 参数 传 给 编码 方法 或 函 
数 ， 对 错误 进行 特殊 处 理 。 处 理 错误 的 方式 如 示例 4-6 所 示 。 


示例 4-6 ”编码 成 字 节 序列 : 成 功 和 错误 处 理 


>>> city = 'São Paulo’ 
>>> city.encode('utf_8') © 
b'S\xc3\xa30 Paulo' 
>>> city.encode('utf_16') 
b'\xff\xfeS\x00\xe3\x000\x80 \x@@P\xe0a\x0u\x001\xe@80\xe0' 
>>> city.encode('iso8859 1') @ 
b'S\xe30 Paulo' 
>>> city.encode('cp437') © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/.../lib/python3.4/encodings/cp437.py", line 12, in encode 
return codecs.charmap_encode(input, errors, encoding map) 
UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in 
position 1: character maps to <undefined> 
>>> city.encode('cp437', errors='ignore') @ 


b'So Paulo' 

>>> city.encode('cp437', errors='replace') © 

b'S?o Paulo' 

>>> city.encode('cp437', errors='xmlcharrefreplace') O 
b'Sao Paulo' 


Q 'utt_?' 编码 能 处 理 任 何 字符 串 。 
© ' iso8859_ 1' 编码 也 能 处 理 字 符 串 'Sao Paulo's 


© 'cp437' 无 法 编码 '3' 〈 带 波形 符 的 “a”) 。 默 认 的 错误 处 理 方式 


'strict' 抛 出 UnicodeEncodeEFrror。 


@error='ignore' 处 理 方式 悄 无 声息 地 跳 过 无 法 编码 的 字符 ;这 样 做 
通常 很 是 不 受 。 


@ 编码 时 指定 error='replace'， 把 无 法 编码 的 字符 蔡 换 成 '?'; 数 
据 损 坏 了 ， 但 是 用 户 知道 出 了 问题 。 


Q 'xmlcharrefreplace' 把 无 法 编码 的 字符 蔡 换 成 XML 实体 。 


和 编 解 码 器 的 错误 处 理 方式 是 可 扩展 的 。 你 可 以 为 errors 参 
数 注 册 额 外 的 字符 串 ， 方 法 是 把 一 个 名 称 和 一 个 错误 处 理 函 数 传 给 
codecs.register_error #2. Bl codecs.register_error 
函数 的 文档 
(https://docs.python.org/3/library/codecs.html#codecs.register error) 。 


4.4.2 ”处理 UnicodeDecodeError 


不 是 每 一 个 字 节 都 包含 有 效 的 ASCII 字符 ， 也 不 是 每 一 个 字符 序列 都 是 
有 效 的 UTF-8 或 UTF-16。 因 此 ， 把 二 进 制 序列 转换 成 文本 时 ， 如 果 假 
设 是 这 两 个 编码 中 的 一 个 ， 遇 到 无 法 转换 的 字 节 序列 时 会 抛 出 


UnicodeDecodeError. 


另 一 方面 ， 很 多 陈旧 的 8 位 编码 一 一 如 'cp1252'、'iso8859_1' 和 
'koi8_r' 能 解码 任何 字 节 序列 流 而 不 抛 出 错误 ， 例 如 随机 噪声 。 
因此 ， 如 果 程 序 使 用 错误 的 8 位 编码 ， 解 码 过 程 悄 无 声息 ， 而 得 到 的 是 


无 用 输出 。 


< 乱码 字符 称 为 鬼 符 Coremlin) 或 mojibake (LEWI, “AE 
MAHI ASC) a 


示例 4-7 HAR SABES PER HS Fi PPS as A BE Sak FB h 


UnicodeDecodeError. 
示例 4-7 把 字 节 序列 解码 成 字符 串 : 成 功 和 错误 处 理 


>>> octets = b'Montr\xe9al' © 

>>> octets.decode('cp1252') @ 

"Montréal' 

>>> octets.decode('iso8859_7') © 

"Montrial' 

>>> octets.decode('koi8 r') @ 

"Montrial' 

>>> octets.decode('utf_8') © 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

UnicodeDecodeError: 'utf-8' codec can't decode byte @xe9 in position 5: 


invalid continuation byte 
>>> octets.decode('utf_8', errors='replace') © 
"Montral' 


© ISO-8859-7 用 于 编码 希腊 文 ， 因 此 无 法 正确 解释 '\xe9' Z, A 
没有 抛 出 错误 。 


@ KOI8-R 用 于 编码 俄 文 ， 这 里 ，' \xe9' 表示 西里 尔 字 母 “区 "。 
© 'utf_8' 编 解码 器 检测 到 octets 不 是 有 效 的 UTF-8 字符 串 ， 抛 出 


UnicodeDecodeError. 


@ 使 用 ‘replace’ 错误 处 理 方式 ，\xe9 蔡 换 成 了 “@”( 码 位 是 


U+FFED) ， 这 是 官方 指定 的 REPLACEMENT CHARACTER (替换 字 
符 ) ， 表 示 未 知 字 符 。 


4.4.3 ”使 用 预期 之 外 的 编码 加 载 模块 时 抛 出 的 
SyntaxError 
Python 3 默认 使 用 UTF-8 编码 源码 ，Python 2 (M 2.5 开始 ) 则 默认 使 用 


ASCI WRIA .py 模块 中 包含 UTF-8 之 外 的 数据 ， 而 且 没 有 声明 
编码 ， 会 得 到 类 似 下 面 的 消息 : 


SyntaxError: Non-UTF-8 code starting with '\xe1' in file ola.py on line 


1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ 
for details 


GNU/Linux 和 OS X 系统 大 都 使 用 UTF-8， 因 此 打开 在 Windows 系统 中 
使 用 cp1252 编码 的 .py 文件 时 可 能 发 生 这 种 情况 。 注 意 ， 这 个 错误 在 
Windows 版 Python 中 也 可 能 会 发 生 ， 因 为 Python 3 为 所 有 平台 设置 的 默 
认 编码 都 是 UTF-8。 


为 了 修正 这 个 问题 ， 可 以 在 文件 顶部 添加 一 个 神奇 的 coding 注释 ， 如 
示例 4-8 所 示 。 


示例 4-8 ola.py:“ 你 好 ， 世 界 ! ”的 葡萄 牙 语 版 


# coding: cp1252 
print('Ola, Mundo!') 


AI 现在 ，Python 3 的 源码 不 再 限于 使 用 ASCII， 而 是 默认 使 用 优 


秀 的 UTF-8 编码 ， 因 此 要 修正 源码 的 陈旧 编码 (如 'cp1252') 问 
题 ， 最 好 将 其 转换 成 UTF-8， 别 去 麻烦 coding 注释 。 如 果 你 用 的 
编辑 器 不 支持 UTF-8， 那 么 是 时 候 换 一 个 了 。 


源码 中 能 不 能 使 用 非 ASCH 名 称 


Python 3 允许 在 源码 中 使 用 非 ASCH 标识 符 : 


>>> ação = 'PBR' # ação = stock 


>>> € = 10**-6 # € = epsilon 


有 些 人 不 喜欢 这 么 做 。 支 持 始终 使 用 ASCII 标识 符 的 人 认为 ， 这 样 
便于 所 有 人 阅读 和 编辑 代码 。 这 些 人 没 切中 要 害 : 源码 应 该 便于 目 
标 群 体 阅读 和 编辑 ， 而 不 是 “< 所 有 人 ”。 如 果 代 码 属于 跨国 公司 ， 或 
者 是 开源 的 ， 想 让 来 自 世 界 各 地 的 人 作 贡 献 ， 那 么 标识 符 应 该 使 用 
英语 ， 也 就 是 说 只 能 使 用 ASCI 字符 。 


但 是 ， 如 宋 你 是 巴西 的 一 位 老师 ， 那 么 使 用 葡萄 牙 语 正确 拼写 变量 
和 函数 名 更 便于 学 生 阅 读 代 码 。 而 且 ， 这 些 学 生 在 本 地 化 的 键盘 中 
不 难 打出 变 音 符号 和 重音 元 音字 母 。 


现在 ，Python 能 解析 Unicode 名 称 ， 而 且 源 码 的 默认 编码 是 UTF- 
8， 我 觉得 没有 任何 理由 使 用 不 带 重 音符 号 的 葡萄 牙 语 编 写 标 识 
符 。 在 Python 2 中 确实 不 能 这 么 做 ， 除 非 你 也 想 使 用 Python 2 运行 
代码 ， 否 则 不 必 如 此 。 如 果 使 用 簿 人 欧 牙 语 命名 标识 符 却 不 带 重 音符 
号 的 话 ， 这 样 写 出 的 代码 对 任何 人 来 说 都 不 易 阅 读 。 


这 是 我 作为 说 葡萄 牙 语 的 巴西 人 的 观点 ， 不 过 我 相信 也 适用 于 其 他 
国家 和 和 文化， 选择 对 团队 而 言 兄 于 阅读 的 人 类 语言 ， 然 后 使 用 正确 
9 字符 拼写 。 


假如 有 个 文本 文件 ， 里 面 保 存 的 是 源码 或 诗句 ， 但 是 你 不 知道 它 的 编 
码 。 如 何 查 明 真 正 的 编码 呢 ? 下 一 节 使 用 一 个 推荐 的 库 回 答 这 个 问题 。 


4.4.4 如 何 找 出 字 节 序列 的 编码 
如 何 找 出 字 节 序列 的 编码 ? 简单 来 说 ， 不 能 。 必 须 有 人 告诉 你 。 


有 些 通信 协议 和 文件 格式 ， 如 HTTP 和 XML， 包含 明确 指明 内 容 编码 
的 首部 。 可 以 肯定 的 是 ， 某 些 字 节 流 不 是 ASCII， 因 为 其 中 包含 大 于 

127 的 字 节 值 ， 而 且 制 定 UTF-8 和 UTF-16 的 方式 也 限制 了 可 用 的 字 节 
序列 。 不 过 即便 如 此 ， 我 们 也 不 能 根据 特定 的 位 模式 来 100% 确定 二 进 
制 文件 的 编码 是 ASCH 或 UTF-8。 


Sei, DURA SHA ALU AA BR il] RE, RE SE A RT 
的 纯 文 本 ， 就 可 能 通过 试探 和 分 析 找 出 编码 。 例 如 ， 如 果 b'\xee' F 
节 经 常 出 现 ， 那 么 可 能 是 16 位 或 32 位 编码 ， 而 不 是 8 位 编码 方案 ， 
为 纯 文本 中 不 能 包含 空 字 符 ， 如 果 字 节 序 列 b'\x26\x88' 经 常 出 现 ， 
那么 可 能 是 UTF-16LE 编码 中 的 空格 字符 〈U+0020) ， 而 不 是 鲜 为 人 知 
的 U+2000 EN QUAD 字符 一 一 谁 知 道 这 是 什么 呢 ! 


统一 字符 编码 侦 测 包 Chardet (https:/pypi.python.org/pypi/chardet) 就 是 
这 样 工 作 的 ， 它 能 识别 所 文 持 的 30 种 编码 。Chardet 是 一 个 Python 库 ， 

可 以 在 程序 中 使 用 ， 不 过 它 也 提供 了 命令 行 工 具 chardetect。 下 面 是 
它 对 本 章 书 稿 文件 的 检测 报告 : 


$ chardetect 64-text-byte.asciidoc 


64-text-byte.asciidoc: utf-8 with confidence 0.99 


二 进 制 序列 编码 文本 通常 不 会 明确 指明 自己 的 编码 ， 但 是 UTF 格式 可 
以 在 文本 内 容 的 开头 添加 一 个 字 市 序 标记 。 参 见 下 一 市 。 


4.4.5 BOM: 有 用 的 鬼 符 


在 示例 4-5 中 ， 你 可 能 注意 到 了 ，UTF-16 编码 的 序列 开头 有 几 个 额外 
INF, BR Pia: 


>>> u16 = ‘El Nifio'.encode('utf_16') 


>>> U16 
b'\xff\xfeE\x@01\x@0 \x@ON\x00i\x00\xf1\x800\xee' 


我 指 的 是 b'\xff\xfe'。 这 是 BOM， 即 字 节 序 标记 (byte-order 
mark) ， 指 明 编码 时 使 用 Intel CPU WY) Fe. 


在 小 字 节 序 设备 中 ， 各 个 码 位 的 最 低 有 效 字 市 在 前 面 : 字母 'E" 的 码 位 


是 U+0045 【十进制 数 69) ， 在 字 节 偏 移 的 第 2 位 和 第 3 位 编码 为 69 和 
0。 


>>> list(u16) 
[255, 254, 69, ©, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111, @] 


在 大 字 市 厅 CPU 中 ， 编 码 顺序 是 相反 的 ; 'E' 编码 为 0 和 69. 


为 了 避免 混淆 ，UTF-16 编码 在 要 编码 的 文本 前 面 加 上 特殊 的 不 可 见 字 
符 ZERO WIDTH NO-BREAK SPACE (U+FEFF) 。 在 小 字 节 序 系统 中 ， 
这 个 字符 编码 为 b'\xff\xfe' (十 进 制 数 255,254) 。 因 为 按照 设计 ， 
U+FFFE 字符 不 存在 ， 在 小 字 节 序 编码 中 ， 字 节 序 列 b'\Xxff\xfe ' 必 
定 是 ZERO WIDTH NO-BREAK SPACE， 所 以 编 解 码 器 知道 该 用 哪个 字 节 
序 。 


UTF-16 有 两 个 变种 : UTF-16LE， 显 式 指明 使 用 小 字 节 序 ，UTF-16BE， 
显 式 指明 使 用 大 字 节 序 。 如 果 使 用 这 两 个 变种 ， 不 会 生成 BOM: 


>>> ul6le = 'El Nifio'.encode('utf_16le') 
>>> list(ul6le) 
[69, @, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111, e] 


>>> ul6be = 'El Nifio'.encode('utf_16be' ) 
>>> list(ul6be) 
[Ə, 69, Ø, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111] 


WRA BOM, UTF-16 编 解 码 器 会 将 其 过 滤 掉 ， 为 你 提供 没有 前 导 
ZERO WIDTH NO-BREAK SPACE 字符 的 真正 文本 。 根 据 标准 ， 如 果 文 件 
使 用 UTF-16 编码 ， 而 且 没 有 BOM， 那 么 应 该 假定 它 使 用 的 是 UTF- 
16BE (大 字 节 序 ) 编码 。 然 而 ，Intel x86 架构 用 的 是 小 字 节 序 ， 因 此 有 
很 多 文件 用 的 是 不 带 BOM 的 小 字 节 序 UTF-16 编码 。 


与 字 节 序 有 关 的 问题 只 对 一 个 字 (word) 占 多 个 字 节 的 编码 (如 UTF- 
16 和 UTF-32) 有 影响 。UTF-8 的 一 大 优势 是 ， 不 管 设备 使 用 哪 种 字 节 
序 ， 生 成 的 字 节 序列 始终 一 致 ， 因 此 不 需要 BOM。 尽 管 如 此 ， 某 些 
Windows 应 用 (尤其 是 Notepad) 依然 会 在 UTF-8 编码 的 文件 中 添加 
BOM; 而 且 ，Excel 会 根据 有 没有 BOM 确定 文件 是 不 是 UTF-8 编码 ， 
否则， 它 假设 内 容 使 用 Windows 代码 页 Ccodepage) 编码 。UTF-8 编码 
的 UHFEFF 字符 是 一 个 三 字 节 序列 : b'\xef\xbb\xbf'。 因 此 ， 如 果 文 
件 以 这 三 个 字 节 开头 ， 有 可 能 是 带 有 BOM 的 UTF-8 文件 。 然 而 ， 

不 会 因为 文件 以 b'\xef\xbb\xbf" 开头 就 自动 假定 它 是 UTF-8 
编码 的 。 


下 面 换个 话题 ， 讨 论 Python 3 处 理 文 本 文件 的 方式 。 


4.5 ”处理 文本 文件 


处 理 文 本 的 最 佳 实践 是 “Unicode 三 明治 ”( 如 图 4-2 所 示 ) 。4 意思 是 ， 
要 尽早 把 输入 《例如 读 取 文件 时 ) 的 字 节 序列 解码 成 字符 串 。 这 种 三 明 
治 中 的 “肉片 ”是 程序 的 业务 逻辑 ， 在 这 里 只 能 处 理 字符 串 对 象 。 在 其 他 
处 理 过 程 中 ， 一 定 不 能 编码 或 解码 。 对 输出 来 说 ， 则 要 尽量 晚 地 把 字符 
串 编码 成 字 节 序列 。 多 数 Web 框架 都 是 这 样 做 的 ， 使 用 框架 时 很 少 接 
触 字 节 序列 。 例 如 ， 在 Django 中 ， 视 图 应 该 输出 Unicode 字符 串 ; 
Django 会 负责 把 啊 应 编码 成 字 节 序列 ， 而 且 默 认 使 用 UTF-8 编码 。 


4 我 第 一 次 见 到 “Unicode 三 明治 ”这 种 说 法 是 在 Ned Batchelder 在 US PyCon 2012 上 所 做 的 精彩 
演讲 中 : “Pragmatic Unicode” (httpynedbatchelder comy/text/unipain/unipain.html) o 


Unicodec 三 | 明治 


PSr em Asses, 


CR af / 人 “Le | 007 st g 只 处 理 文本 ， 
str > 编码 输出 的 文本 。 
图 4-2: Unicode 三 明治 一 一 目前 处 理 文本 的 最 佳 实践 


在 Python 3 中 能 轻松 地 采纳 Unicode 三 明治 的 建议 ， 因 为 内 置 的 open 
函数 会 在 读 取 文件 时 做 必要 的 解码 ， 以 文本 模式 写 入 文件 时 还 会 做 必要 
的 编码 ， 所 以 调用 my_file.read() 方法 得 到 的 以 及 传 给 
my_file.write(text) 方法 的 都 是 字符 串 对 象 。” 


SPython 2.6 或 Python 2.7 用 户 要 使 用 io.open() 函数 才能 得 到 读 写 文件 时 自动 执行 的 解码 和 编 
码 操 作 。 


ee ee 
BRIT 。 


看 一 下 示例 4-9 中 的 控制 台 会 话 。 你 能 发 现 问题 吗 ? 


示例 4-9 一 个 平台 上 的 编码 问题 《如果 在 你 的 机 器 上 运行 ， 它 可 
能 会 及 生 ， 也 可 能 不 会 ) 


>>> open('cafe.txt', 'w', encoding='utf_8').write('café') 
4 


>>> open('cafe.txt').read() 
‘cafAo' 


问题 是 : 写 入 文件 时 指定 了 UTF-8 编码 ， 但 是 读 取 文件 时 没有 这 么 做 ， 
因此 Python 假定 要 使 用 系统 默认 的 编码 (Windows 1252) ， 于 是 文件 的 
最 后 一 个 字 节 解码 成 了 字符 'A@' ， 而 不 是 "6 '。 


我 是 在 Windows 7 中 运行 示例 4-9 的 。 在 新 版 GNU/Linux 或 Mac OS X 
中 运行 同样 的 语句 不 会 出 问题 ， 因 为 这 几 个 操作 系统 的 默认 编码 是 
UTF-8， 让 人 误 以 为 一 切 正常 。 如 果 打 开 文 件 是 为 了 写 入 ， 但 是 没有 指 
定编 码 参 数 ， 会 使 用 区 域 设 置 中 的 默认 编码 ， 而 且 使 用 那个 编码 也 能 
确 读 取 文 件 。 但 是 ， 如 果 脚 本 要 生成 文件 ， 而 字 节 的 内 容 取 决 于 平台 或 
同一 平台 中 的 区 域 设 置 ， 那 么 就 可 能 导致 兼容 问题 。 


% 需要 在 多 台 设 备 中 或 多 种 场合 下 运行 的 代码 ， 一 定 不 能 依赖 
默认 编码 。 打 开 文 件 时 始终 应 该 明确 传 入 encoding= 参数 ， 因 为 
不 同 的 设备 使 用 的 默认 编码 可 能 不 同 ， 有 时 隅 一 天 也 会 发 生变 化 。 


示例 4-9 中 有 个 奇怪 的 细节 : 第 一 个 语句 中 的 write 函数 报告 写 入 了 4 
个 字符 ， 但 是 下 一 行 读 取 时 却 得 到 了 5 个 人 字符。 示例 4-10 是 对 示例 4-9 
的 扩展 ， 对 这 个 问题 以 及 其 他 细节 做 了 说 明 。 


示例 4-10 仔细 分 析 在 Windows 中 运行 的 示例 4-9， 找 出 并 修正 问 
题 


>>> fp = open('cafe.txt', 'w', encoding='utf_8') 
>>> fp 
<_io.TextIOWrapper name='cafe.txt' mode='w' encoding='utf_8'> 


>>> Ffp.write('café' ) 

4 

>>> fp.close() 

>>> import os 

>>> os.stat('cafe.txt').st_size 


5 
>>> fp2 = open('cafe.txt') 
>>> fp2 @ 


<_io.TextIOWrapper name='cafe.txt' mode='"r' encoding='cp1252'> 
>>> fp2.encoding © 

"cp1252' 

>>> fp2.read() 

‘cafhAo' © 

>>> fp3 = open('cafe.txt', encoding='utf_8') @ 

>>> fp3 

<_io.TextIOWrapper name='cafe.txt' mode='"r' encoding='utf_8'> 
>>> fp3.read() 

‘café' O 

>>> fp4 = open('cafe.txt', 'rb') © 

>>> fp4 

<_io.BufferedReader name='cafe.txt'> 四 

>>> fp4.read() © 

b'caf\xc3\xa9' 


@ 默认 情况 下 ，open 函数 采用 文本 模式 ， 返 回 一 个 TextIOWrapper 
对 象 。 


© E TextIOWrapper 对 象 上 调用 write 方法 返回 写 入 的 Unicode 字符 
数 。 

© os.stat 报告 文件 中 有 5 个 字 节 ; UTF-8 编码 的 'é' 占 两 个 字 节 ， 
0xc3 和 0xa9。 


O 打开 文本 文件 时 没有 显 式 指定 编码 ， 返 回 一 个 TextIOWrapper 对 
象 ， 编 码 是 区 域 设置 中 的 默认 值 。 


@ TextIOWrapper 对 象 有 个 encoding 属性 ， 查 看 它 ， 发 现 这 里 的 编 
fax cp1252。 


@ 在 Windows cp1252 编码 中 ，0xc3 字 节 是 “A”( 带 波形 符 的 A)， 
0xa9 FEMS o 


@ 使 用 正确 的 编码 打开 那个 文件 。 

@ 结果 符合 预期 :得 到 的 是 四 个 Unicode 字符 ' café'。 

© 'rb' 标志 指明 在 二 进 制 模式 中 读 取 文件 。 

O 返回 的 是 BufferedReader 对 象 ， 而 不 是 TextIONrapper 对 象 。 
人 @ 读 取 返 回 的 字 节 序列 ， 结 果 与 预期 相符 。 


AI 除非 想 判 断 编 码 ， 否 则 不 要 在 三 进 制 模式 中 打开 文本 文件 ; 
即便 如 些 ， 也 应 该 使 用 Chardet， 而 不 是 重新 发 明 轮 子 (参见 4.4.4 
。 第 规 代码 只 应 该 使 用 二 进 制 模式 打开 二 进 制 文件 ， 如 光栅 图 


示例 4-10 的 问题 是 ， 打 开 文 本 文件 时 依赖 默认 设置 。 默 认 设置 有 许多 
来 源 ， 参见 下 一 节 。 


编码 默认 值 : 一 团 精 


有 几 个 设置 对 Python VO 的 编码 默认 值 有 有 影响， 如 示例 4-11 中 的 
default_encodings.py 脚本 所 示 。 


示例 4-11 探索 编码 默认 值 


import sys, locale 


expressions = """ 
locale. getpreferredencoding( ) 
type(my_file) 
my_file.encoding 
sys.stdout.isatty() 
sys.stdout.encoding 
sys.stdin.isatty() 
sys.stdin.encoding 
sys.stderr.isatty() 
sys.stderr.encoding 
sys.getdefaultencoding( ) 
sys.getfilesystemencoding() 


my_file = open('dummy', ‘w') 


for expression in expressions.split(): 
value = eval(expression) 
print(expression.rjust(3@), '->', repr(value) ) 


示例 4-11 Æ GNU/Linux (Ubuntu 14.04) 和 OS X (Mavericks 10.9) 中 的 
输出 一 样 ， 表 明 这 些 系 统 中 始终 使 用 UTF-8: 


$ _ python3 default_encodings.py 
locale.getpreferredencoding() -> 'UTF-8' 
type(my_file) -> <class '_io.TextIOWrapper'> 
my_file.encoding -> 'UTF-8' 
sys.stdout.isatty() -> True 
sys.stdout.encoding -> 'UTF-8' 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'UTF-8' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'UTF-8' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'utf-8' 


然而 ， 在 Windows 中 的 输出 有 所 不 同 ， 如 示例 4-12 所 示 。 


示例 4-12 在 Windows 7 (SP1) 巴西 版 中 的 cmd.exe “Har HH HY BRL 
编码 ，PowerShell 输出 的 结果 相同 


Z:\>chcp @ 
Pagina de código ativa: 850 
Z:\>python default_encodings.py @ 
locale.getpreferredencoding() -> 'cp1252' © 
type(my_file) -> <class '_io.TextIOWrapper'> 
my_file.encoding -> 'cp1252' @ 
sys.stdout.isatty() -> True © 
sys.stdout.encoding -> 'cp850' O 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'cp850' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'cp850' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'mbcs' 


PO 
@ chcp 输出 当前 控制 台 激活 的 代码 页 : 850. 

四 运行 default_encodings.py， 把 结果 输出 到 控制 台 

© locale.getpreferredencoding() 是 最 重要 的 设置 。 

@ 文本 文件 默认 使 用 locale.getpreferredencoding()。 

O 输出 到 控制 台中 ， 因 此 sys.stdout.isatty() 返回 True. 

O 因此 ，sys.stdout.encoding 与 控制 台 的 编码 相同 。 

如 果 把 输出 重 定向 到 文件 ， 如 下 所 示 : 


Z:\>python default_encodings.py > encodings.1log 


sys.stdout.isatty() 的 返回 值 会 变 成 
False, sys.stdout.encoding 会 设 为 
locale.getpreferredencoding()， 在 那 台 设备 中 是 “cp1252 ' 。 


注意 ， 示 例 4-12 中 有 4 种 不 同 的 编码 。 


。 如 果 打 开 文 件 时 没有 指定 encoding 参数 ， 默 认 值 由 
locale.getpreferredencoding() 提供 (在 示例 4-12 中 是 
'cp1252') 。 


e 如 果 设 定 了 PYTHONIOENCODING 环境 变量 
(https://docs.python.org/3/using/cmdline.html#envvar- 
PYTHONIOENCODING) , sys.stdout/stdin/stderr 的 编码 使 
用 设 定 的 值 ， 耕 则 ， 继 承 自 所 在 的 控制 台 ; 如 果 输 入 /输出 重 定 问 
到 文件 ， 则 由 locale.getpreferredencoding() 定义 。 


e Python 在 二 进 制 数据 和 字符 串 之 间 转 换 时 ， 内 部 使 用 
sys. getdefaultencoding() 获得 的 网 码 ; Python 3 很 少 如 此 ， 但 
仍 有 发 生 。。 这 个 设置 不 能 修改 。 


e sys.getfilesystemencoding() 用 于 编 解 码 文件 名 《不 是 文件 内 
容 ) 。 把 字符 串 参 数 作为 文件 名 传 给 open() 函数 时 就 会 使 用 它 ; 
如 果 传 入 的 文件 名 参数 是 字 市 序列 ， 那 就 不 经 改动 直接 传 给 OS 
API. “Unicode HOWTO” 一 文 

(https://docs.python.org/3/howto/unicode.html〉 中 说 :“ 在 Windows 
中 ，Python 使 用 mbcs 这 个 名 称 引 用 当前 配置 的 编码 。”MBCS 是 
Multi Byte Character Set (2 WYSE) 的 站 字母 缩写 ， 在 
Windows 中 是 陈旧 的 变 长 编码 ， 如 gb2312 或 Shift_JIS， 而 不 是 
UTF-8. [ 关于 这 个 话题 ，Stack Overflow 中 有 一 个 很 好 的 回答 “， 
Difference between MBCS and UTF-8 on 
Windows” (http://stackoverflow.com/questions/3298569/difference- 
between-mbcs-and-utf-8-on-windows) 。] 


6 研究 这 个 话题 时 ， 我 在 Python 内 部 找 不 到 把 字 节 序列 转换 成 字符 串 的 情况 。Python 核心 开发 
者 Antoine Pitrou 在 comp.python.devel 邮件 列表 中 说 

Chttp://article.gmane.org/gmane.comp.python.devel/110036) , CPython 的 内 部 函数 “在 py3k 中 很 少 
这 么 做 ”。 


7Python 2 对 sys.setdefaultencoding 函数 的 使 用 方式 不 当 ，Python 3 的 文档 中 已 经 没有 这 
个 函数 。 这 个 函数 是 供 核心 开发 者 使 用 的 ， 用 于 在 内 部 的 默认 编码 未 定时 设置 编码 。 在 
comp.python.devel 邮件 列表 的 那个 话题 中 

Chttp://article.gmane.org/gmane.comp.python.devel/109916) , Marc-André Lemburg 说 ， 用 户 代码 
一 定 不 能 调用 sys.setdefaultencoding 函数 ， 而 且 对 CPython 来 说 ， 它 的 值 在 Python 2 中 
只 能 是 "ascii'， 在 Python 3 中 只 能 是 'utf-8'。 


` 在 GNU/Linux 和 0OSX 中 ， 这 些 编 码 的 默认 值 都 是 UTF-8， 而 
且 多 年 来 都 是 如 此 ， 因 此 VO 能 处 理 所 有 Unicode 字符 。 在 
Windows 中 ， 不 仅 同一 个 系统 中 使 用 不 同 的 编码 ， 还 有 只 文 持 
ASCII 和 127 个 额外 的 字符 的 代码 页 (如 "cp856 ' 或 

'cp1252') ， 而 且 不 同 的 代码 页 之 间 增 加 的 字符 也 有 所 不 同 。 
此 ， 若 不 多 加 小 心 ，Windows 用 户 更 容易 过 到 编码 问题 。 


综 上 ，locale.getpreferredencoding() 返回 的 编码 是 最 重要 的 : 这 
是 打开 文件 的 默认 编码 ， 也 是 重 定 同 到 文件 的 

sys.stdout/stdin/stderr 的 默认 编码 。 然 而 ， 文 档 也 说 道 〈 摘 录 部 
4}, https://docs.python.org/3/library/locale.html#locale.getpreferredencoding 


locale. getpreferredencoding(do_setlocale=True) 


AR AS ee CL, TED CANE aS o AB i SC EAS 
同系 统 中 的 设 定 方式 不 同 ， 而 且 在 茶 些 系统 中 可 能 无 法 通过 编程 方 
式 设置 ， 因 此 这 个 函数 返回 的 只 是 猜测 的 编码 .……… 


因此 ， 关 于 编码 默认 值 的 最 佳 建议 是 : 别 依赖 默认 值 。 


WRM Unicode 三 明治 的 建议 ， 而 且 始 终 在 程序 中 显 式 指定 编码 ， 那 
将 避免 很 多 问题 。 可 惜 ， 即 使 把 字 节 序列 正确 地 转换 成 字符 串 ， 
Unicode 仍 有 不 尽 如 人 意 的 地 方 。 接 下 来 的 两 节 讨 论 的 话题 对 ASCII H 
界 来 说 很 简单 ， 但 是 在 Unicode 领域 就 变 得 相当 复杂 : 文本 规范 化 〈 即 
为 了 比较 而 把 文本 转换 成 统一 的 表述 ) 和 排序 。 


4.6 ”为 了 正确 比较 而 规范 化 Unicode 字 人 符 
FA 


因为 Unicode 有 组 合 字 符 《〈 变 音符 号 和 附加 到 前 一 个 字符 上 的 记号 ， 打 
印 时 作为 一 个 整体 )， 所 以 字符 串 比较 起 来 很 复杂 。 


例如 ，“café” 这 个 词 可 以 使 用 两 种 方式 构成 ， 分 别 有 4 个 和 5 个 码 位 ， 
但 是 结果 完全 一 样 : 


>>> s1 'café' 

>>> S2 'cafe\u0301' 
>>> s1, s2 

('café', 'café') 


>>> len(s1), len(s2) 
(4, 5) 

>>> s1 == s2 

False 


U+0301 是 COMBINING ACUTE ACCENT， 加 在 “e”* 后 面 得 到 “6”。 在 
Unicode 标准 中 ，'&é' 和 'e\u8381' 这 样 的 序列 叫 “ 标 准 等 价 

物 ”(canonical equivalent) ， 应 用 程序 应 该 把 它们 视 作 相 同 的 字符 。 但 
是 ，Python 看 到 的 是 不 同 的 码 位 序列 ， 因 此 判定 二 者 不 相等 。 


这 个 问题 的 解决 方案 是 使 用 unicodedata.normalize 函数 提供 的 
Unicode 规范 化 。 这 个 函数 的 第 一 个 参数 是 这 4 个 字符 串 中 的 一 
个 : 'NFC', 'NFD', 'NFKC' 和 'NFKD'。 下 面 先 说 明 前 两 个 。 


NFC (Normalization FormC) 使 用 最 少 的 码 位 构成 等 价 的 字符 串 ， 而 
NFD 把 组 合 字符 分 解 成 基 字 符 和 单独 的 组 合 字符 。 这 两 种 规范 化 方式 都 
能 让 比较 行为 符合 预期 : 


>>> from unicodedata import normalize 

>>> sl = 'café' # 把 "e" 和 重音 符 组 合 在 一 起 

>>> s2 = 'cafe\ue3e1' # 分 解 成 "e" 和 重音 符 

>>> len(s1), len(s2) 

(4, 5) 

>>> len(normalize('NFC', s1)), len(normalize('NFC', s2)) 


(4, 4) 
>>> len(normalize('NFD', s1)), len(normalize('NFD', s2)) 


(5, 5) 

>>> normalize('NFC', s1) == normalize('NFC', s2) 
True 

>>> normalize('NFD', s1) == normalize('NFD', s2) 
True 


西方 键盘 通常 能 输出 组 合 字 符 ， 因 此 用 户 输入 的 文本 默认 是 NFC 形 
式 。 不 过 ， 安 全 起 见 ， 保 存 文本 之 前 ， 最 好 使 用 normalize('NFC', 
user_text) 清洗 字符 串 。NFC 也 是 W3C 的 “Character Model for the 
World Wide Web: String Matching and Searching’ #4 yù 
Chttps://www.w3.org/TR/charmod-norm/) 推荐 的 规范 化 形式 。 


使 用 NFC 时 ， 有 些 单字 符 会 被 规范 成 妨 一 个 单字 符 。 例 如 ， 电 阻 的 单 
位 欧姆 (QQ) 会 被 规范 成 希腊 字母 大 写 的 欧米 加 。 这 两 个 字符 在 视觉 上 
是 一 样 的 ， 但 是 比较 时 并 不 相等 ， 因 此 要 规范 化 ， 防 止 出 现 意 外 : 


>>> from unicodedata import normalize, name 
>>> ohm = '\u2126' 

>>> name(ohm) 

"OHM SIGN' 

>>> ohm_c = normalize('NFC', ohm) 


>>> name(ohm_c) 

"GREEK CAPITAL LETTER OMEGA' 

>>> ohm == ohm_c 

False 

>>> normalize('NFC', ohm) == normalize('NFC', ohm_c) 
True 


在 另外 两 个 规范 化 形式 (NFKC 和 NFKD) 的 首 字母 缩 略 词 中 ， 字 母 K 
表示 “compatibility”( 兼 容 性 ) 。 这 两 种 是 较 严 格 的 规范 化 形式 ， 对 “ 兼 
容 字 符 ” 有 影响 。 虽 然 Unicode 的 目标 是 为 各 个 字符 提供 “规范 的 ” 码 位 ， 
但 是 为 了 兼容 现 有 的 标准 ， 有 些 字符 会 出 现 多 次 。 例 如 ， 虽 然 希 腊 字 母 
表 中 有 “这 个 字母 〈 码 位 是 U+03BC, GREEK SMALL LETTER MU) , 

但 是 Unicode 还 是 加 入 了 微 符 号 'w' CU+O0OBS) ， 以 便 与 latin1 相互 
转换 。 因 此 ， 微 符号 是 一 个 “兼容 字符 ”。 


在 NFKC 和 NFKD 形式 中 ， 各 个 兼容 字符 会 被 普 换 成 一 个 或 多 个 “兼容 
分 解 ” 字 符 ， 即 便 这 样 有 些 格式 损失 ， 但 仍 是 “首选 ”表述 一 一 理想 情况 
下 ， 格 式 化 是 外 部 标记 的 职责 ， 不 应 该 由 Unicode 处 理 。 下 面 举 个 例 


子 。 二 分 之 一 '%' (U+00BD) 经 过 兼容 分 解 后 得 到 的 是 三 个 字符 序列 
'1/2'; 微 符号 'h' (Ur00B5) 经 过 兼容 分 解 后 得 到 的 是 小 写字 母 
'u' (U+03BC) 。 © 


8 微 符号 是 “兼容 字符 ”"， 而 欧姆 符号 不 是 ， 这 还 真是 奇怪 。 因 此 ，NFC 不 会 改动 微 符号 ， 但 是 
会 把 欧姆 符号 改 成 大 写 的 欧米 加 ; 而 NFKC 和 NFKD 会 把 欧姆 和 微 符 号 都 改 成 其 他 字符 。 


下 面 是 NFKC 的 具体 应 用 : 


>>> from unicodedata import normalize, name 
>>> half = '%' 

>>> normalize('NFKC', half) 

"1/2" 

>>> four_squared = '4?' 

>>> normalize('NFKC', four_squared) 
'42' 

>>> micro = “HR 

>>> micro kc = normalize('NFKC', micro) 
>>> micro, micro_kc 

(‘p's 'H') 

>>> ord(micro), ord(micro_kc) 

(181, 956) 

>>> name(micro), name(micro_kc) 

('MICRO SIGN', "GREEK SMALL LETTER MU') 


使 用 '1/2' BRA 可 以 接受 ， 微 符号 也 确实 是 小 写 的 希腊 字母 

'h'， 但 是 把 '42' 转换 成 '42' 就 改变 原意 了 。 某 些 应 用 程序 可 以 把 
'42' 保存 为 '4<sup>2</sup>'， 但 是 normalize 函数 对 格式 一 无 所 
知 。 因 此 ，NFKC 或 NFKD 可 能 会 损失 或 曲解 信息 ， 但 是 可 以 为 搜索 和 
索引 提供 便利 的 中 间 表 述 : 用 户 搜索 '1 / 2 inch' 时 ， 如 果 还 能 找到 
包含 '% inch' 的 文档 ， 那 么 用 户 会 感到 满意 。 


By 使 用 NFKC 和 NFKD 规范 化 形式 时 要 小 心 ， 而 且 只 能 在 特 
殊 情 况 中 使 用 ， 例 如 搜索 和 索引 ， 而 不 能 用 于 持久 存储 ， 因 为 这 两 
种 转换 会 导致 数据 损失 。 


为 搜索 或 家 下 准 备 文本 时 ， 还 有 一 个 有 用 的 操作 ， 即 下 一 节 讨 论 的 大 小 
SHS. 


461 大 小 写 折 车 


大 小 写 折 对 其 实 就 是 把 所 有 文本 变 成 小 写 ， 再 做 些 其 他 转换 。 这 个 功能 
由 str.casefold() 方法 (Python 3.3 新 增 ) 支持 。 


对 于 只 包含 latini 字符 的 字符 串 s，s .casefold() 得 到 的 结果 与 
s.lower() 一 样 ， 唯 有 两 个 例外 : 微 符号 'h' 会 变 成 小 写 的 希腊 字 
母 “n”( 在 多 数字 体 中 二 者 看 起 来 一 样 ); 德语 Eszett (“sharp s”, RB) 
会 变 成 “ss”。 


>>> micro = "Hh" 

>>> name(micro) 

"MICRO SIGN' 

>>> micro_cf = micro.casefold() 
>>> name(micro_cFf) 

"GREEK SMALL LETTER MU' 

>>> micro, micro_cf 


Ch’, 'H') 

>>> eszett = 'R' 

>>> name(eszett) 

"LATIN SMALL LETTER SHARP S' 

>>> eszett_cf = eszett.casefold() 
>>> eszett, eszett_cf 

(‘B', 'ss') 


自 Python 3.4 jf, str.casefold() 和 str.lower() 得 到 不 同 结果 的 有 
116 个 码 位 。Unicode 6.3 命名 了 110 122 个 字符 ， 这 只 占 0.11%. 


与 Unicode 相关 的 任何 问题 一 样 ， 大 小 写 折 熏 是 个 复 洒 的 问题 ， 有 很 多 
语言 上 的 特殊 情况 ， 但 是 Python 核心 团队 尽力 提供 了 一 种 方案 ， 能 满足 
大 多 数 用 户 的 需求 。 


接 下 来 的 几 节 将 使 用 这 些 规范 化 知识 来 开发 几 个 实用 的 函数 。 
4.6.2 ”规范 化 文本 匹配 实用 函数 
由 前 文 可 知 ，NFC 和 NFD 可 以 放心 使 用 ， 而 且 能 合理 比较 Unicode 字 


符 串 。 对 大 多 数 应 用 来 说 ，NFC 是 最 好 的 规范 化 形式 。 不 区 分 大 小 写 的 
比较 应 该 使 用 str.casefold()。 


如 果 要 处 理 多 语言 文本 ， 工 具 箱 中 应 该 有 示例 4-13 中 的 nfc_equal 和 
fold_equal 函数 。 


示例 4-13 normeg.py: 比较 规范 化 Unicode 字符 串 


Utility functions for normalized Unicode string comparison. 
Using Normal Form C, case sensitive: 


>>> s1 'café' 

>>> S2 'cafe\u0301' 
>>> s1 == s2 

False 

>>> nfc_equal(s1, s2) 
True 

>>> nfc_equal('A', 'a') 
False 


Using Normal Form C with case folding: 


>>> S3 'Straße' 

>>> s4 = 'strasse' 

>>> S3 == S4 

False 

>>> nfc_equal(s3, s4) 
False 

>>> fold_equal(s3, s4) 
True 

>>> fold_equal(s1, s2) 
True 

>>> fold_equal('A', 'a') 
True 


from unicodedata import normalize 


def nfc_equal(str1, str2): 
return normalize('NFC', str1) == normalize('NFC', str2) 


def fold_equal(str1, str2): 
return (normalize('NFC', str1).casefold() == 
normalize('NFC', str2).casefold()) 


除了 Unicode 规范 化 和 大 小 写 折 车 (二 者 都 是 Unicode 标准 的 一 部 分 ) 
之 外 ， 有 时 需要 进行 更 为 深入 的 转换 ， 例 如 把 'café' 变 成 'cafe'。 
下 一 节 说 明 何 时 以 及 如 何 进 行 这 种 转换 。 


4.6.3 Mom": BRE TS 


Google 搜索 涉及 很 多 技术 ， 其 中 一 个 显然 是 忽略 变 首 符 写 〈 如 重音 符 、 
下 加 符 等 ) ， 人 至 少 在 茶 些 情况 下 会 这 么 做 。 去 掉 变 音符 号 不 是 正确 的 规 
范 化 方式 ， 因 为 这 往往 会 改变 词 的 意思 ， 而 且 可 能 误 判 搜索 结果 。 但 是 
对 现实 生活 却 有 所 帮助 :， 人 们 有 时 很 懒 ， 或 者 不 知道 怎么 正确 使 用 变 音 
EE E A edema 


除了 搜索 ， 去 掉 变 音符 号 还 能 让 URL 更 易于 阅读 ， 至 少 对 拉丁 语系 语 
言 是 如 此 。 下 面 是 维基 百科 中 介绍 圣保罗 市 (Saio Paulo) 的 文章 的 
URL: 


http://en.wikipedia.org/wiki/S%C3%A30_Paulo 


其 中 ,，“%C3%A3” 是 UTF-8 编码 “全 字母 〈 带 有 波形 符 的 “a”) 转 义 后 得 
到 的 结果 。 下 述 形 式 更 友好 ， 尽 管 拼 写 是 错误 的 : 


http://en.wikipedia.org/wiki/Sao Paulo 
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示例 4-14 BE MAGIC SAY eee CLE sanitize.py 模块 中 ) 


import unicodedata 
import string 


def shave_marks(txt): 
""" 去 掉 全 部 变 音符 号 """ 
norm txt = unicodedata.normalize('NFD', txt) © 
shaved = ''.join(c for c in norm txt 


if not unicodedata.combining(c)) @ 
return unicodedata.normalize('NFC', shaved) © 


@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记号 。 
O WER AAA ICS 
O 重组 所 有 字符 。 


示例 4-15 是 shave_marks 函数 的 两 个 使 用 示例 。 


示例 4-15 示例 4-14 F shave_marks 函数 的 两 个 使 用 示例 


>>> order = '“Herr Vo: 。% cup of OEtker™ caffè latte 。 bowl of acai.” ' 
>>> shave_marks(order) 
‘Herr Voß: e % cup of OEtker™ caffe latte « bowl of acai.” © 


>>> Greek = 'Zéoupoc, Zéfiro' 
>>> shave_marks(Greek) 
'Zepupoc, Zefiro' @ 


(1) 只 替换 了 “e”c” 和 “1 三 | 字符 。 
O “EFC ABT HR To 


示例 4-14 中 定义 的 shave_marks 函数 使 用 起 来 没 问 题 ， 但 是 也 许 做 得 
太 多 了 。 通 常 ， 去 挥 变 首 符 号 是 为 了 把 拉丁 文本 变 成 纯粹 的 ASCII， 但 
是 shave_marks 函数 还 会 修改 非 拉 丁字 符 〈 如 希腊 字母 ，， 而 只 去 挥 

音符 并 不 能 把 它们 变 成 ASCI 字符 。 因 此 ， 我 们 应 该 分 析 各 个 基 字 
符 ， 仅 当 字 符 在 拉丁 字母 表 中 时 才 删 除 附加 的 记号 ， 如 示例 4-16 所 
Ro 


示例 4-16 删除 拉丁 字母 中 组 合 记号 的 函数 Cimport 语句 省 略 
了 ， 因 为 这 是 示例 4-14 中 定义 的 sanitize.py 模块 的 一 部 分 ) 


def shave marks latin(txt): 


""" 把 拉丁 基 字 符 中 所 有 的 变 音 符号 删除 """ 

norm txt = unicodedata.normalize('NFD', txt) @ 
latin_base = False 

keepers = [] 

for c in norm_txt: 


if unicodedata.combining(c) and latin_base: @ 
continue # 忽略 拉丁 基 字 符 上 的 变 音符 号 


keepers.append(c) © 
# 如 果 不 是 组 合 字符 ， 那 就 是 新 的 基 字 符 
if not unicodedata.combining(c): (4) 
latin_base = c in string.ascii_letters 
shaved = ''.join(keepers) 
return unicodedata.normalize('NFC', shaved) © 


O 把 所 有 字符 分 解 成 基 字 符 和 组 合 记号 。 
O 基 字 符 为 拉丁 字母 时 ， 跳 过 组 合 记号 。 


人 @ 否则 ， 保 存 当前 字符 。 

O 检测 新 的 基 字 符 ， 判 断 是 不 是 拉丁 字母 。 

O 重组 所 有 字符 。 

更 彻 确 的 规范 化 步骤 是 把 西 文 文本 中 的 第 见 符 号 〈 如 弯 引 号 、 长 破 折 


号 、 项 目 符号 ， 等 等 ) 替换 成 ASCH 中 的 对 等 字符 。 示 例 4-17 中 的 
asciize 函数 就 是 这 么 做 的 。 


示例 4-17 把 一 些 西 文 印 刷 字 符 转 换 成 ASCI 字符 《这 个 代码 片段 
也 是 示例 4-14 中 sanitize.py 模块 的 一 部 分 ) 


single_map = str.maketrans(" " ee Po ae CILT" v 1) 
nun 1F"*A< wt > ae | 


multi_map = str.maketrans({ @ 


€': '<euro>', 
pee? y 
OE "OE", 
(TM) ， 
oe ‘oe', 
‘e': '<per mille>', 
A "xx! 
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}) 


multi_map.update(single map) © 


def dewinize(txt): 
""" 把 Win1252 符 号 葵 换 成 ASCII 字 符 或 序列 """ 
return txt.translate(multi_map) ©@ 


def asciize(txt): 
no_marks = shave_marks_latin(dewinize(txt) ) © 
no_marks = no_ marks.replace('R', 'ss') (6) 
return unicodedata.normalize('NFKC', no_marks) @ 


@ 构建 字符 蔡 换 字符 的 映射 表 。 
O 构建 字符 蔡 换 字 符 串 的 映射 表 。 
O 合并 两 个 映射 表 。 


@ dewinize 函数 不 影响 ASCII 或 latini 文本 ， 只 替换 Microsoft 在 
cp1252 中 为 1atin1 额外 添加 的 字符 。 


© 调用 dewinize 函数 ， 然 后 去 掉 变 音符 号 。 


@ 把 德语 Eszett 替换 成 ss”( 这 里 没有 使 用 大 小 写 折 登 ， 因 为 我 们 想 保 
留 大 小 写 ) 。 


O 使 用 NFKC 规范 化 形式 把 字符 和 与 之 兼容 的 码 位 组 合 起 来 。 
示例 4-18 是 asciize 函数 的 使 用 示例 。 
示例 4-18 示例 4-17 中 asciize 函数 的 使 用 示例 


>>> order = '“Herr Vo: 。% cup of OEtker™ caffè latte 。 bowl of acai.” ' 
>>> dewinize(order) 


'"Herr Voß: - % cup of OEtker(TM) caffè latte - bowl of acai."' © 
>>> asciize(order) 
'"Herr Voss: - 1/2 cup of OEtker(TM) caffe latte - bowl of acai."' @ 


Q dewinize MARS 5S. MAR SAI™ (商标 符 写 ) 。 


@ asciize MAA dewinize HAM, HETA, DEAR 'R'. 


ox 不 同 语言 删除 变 音 符号 的 规则 也 有 所 不 同 。 例 如 ， 德 语 把 
'ü' 变 成 'ue'。 我 们 定义 的 asciize 函数 没 这 么 精确 ， 因 此 可 能 
a 
受 的 。 
综 上 ，sanitize.py 中 的 函数 做 的 事情 超出 了 标准 的 规范 化 ， 而 且 会 对 文 
本 做 进一步 处 理 ， 很 有 可 能 会 改变 原意。 只 有 知道 目标 语言 、 目 标 用 户 
群 和 转换 后 的 用 途 ， 才 能 确定 要 不 要 做 这 么 深入 的 规范 化 。 
我 们 对 Unicode 文本 规范 化 的 讨论 到 此 结 


接 下 来 要 解决 的 Unicode 问题 是 .……. 排 序 。 


4.7 Unicode <A #4 }¥ 

Python 比较 任何 类 型 的 序列 时 ， 会 一 一 比较 序列 里 的 各 个 元 素 。 对 字符 
nee 可 是 在 比较 非 ASCI 字符 时 ， 得 到 的 结果 不 尽 
IE. 


下 面 对 一 个 生长 在 巴西 的 水 果 的 列表 进行 排序 : 


>>> fruits = ['caju', 'atemoia', 'cajá', ‘acai’, 'acerola'] 


>>> sorted(fruits) 
['acerola', 'atemoia', 'açaí', 'caju', 'cajá'] 


AN Trl YY XBR A ES RAP UU RAR, al 4a) PSR 2 n RAR ie TF 
母 表 排序 ， 重 音符 号 和 下 加 符 对 排序 几乎 没什么 影响 。?” 因 此， 排序 
时 “caj 纪 视 作 “caja”， 必 定 排 在 “caju” 前 面 。 


9 变 音 符号 对 排序 有 影响 的 情况 很 少 发 生 ， 只 有 两 个 词 之 间 唯 有 变 音符 号 不 同时 才 有 影响 。 此 
时 ， 带 有 变 音符 号 的 词 排 在 常规 词 的 后 面 。 


排序 后 的 fruits 列表 应 该 是 


['açaí', 'acerola', 'atemoia', 'cajá', 'caju'] 


在 Python F, JE ASCII 文本 的 标准 排序 方式 是 使 用 locale.strxfrm 
函数 ， 根 据 locale 模块 的 文档 
(https://docs.python.org/3/library/locale.html? 

highlight=strxfrm#locale.strxfrm) ， 这 个 函数 会 “把 字符 串 转 换 成 适合 所 

在 区 域 进行 比较 的 形式 ”。 

ae locale.strxfrm 函数 之 前 ， 必 须 先 为 应 用 设 定 合 适 的 区 域 设置 ， 

要 祈祷 操作 系统 文 持 这 项 设置 。 在 区 域 设 为 pt_BR 的 
salad al 可 以 使 用 示例 4-19 中 的 命令 。 


示例 4-19 使 用 locale.strxfrm 函数 做 排序 键 


>>> import locale 
>>> locale.setlocale(locale.LC_COLLATE, 'pt_BR.UTF-8') 
'pt_BR.UTF-8' 


>>> fruits = ['caju', ‘atemoia', 'caja', ‘acai’, ‘acerola' ] 
>>> sorted_fruits = sorted(fruits, key=locale.strxfrm) 

>>> sorted_fruits 

['açaí', 'acerola', ‘atemoia', ‘caja’, ‘caju'] 


因此 ， 使 用 locale.strxfrm 函数 做 排序 键 之 前 ， 要 调用 
setlocale(LC_COLLATE, «your_locale»). 


不 过 ， 有 几 扣 要 注意 。 


。 区 域 设 置 是 全 局 的 ， 因 此 不 推荐 在 库 中 调用 setlocale pia. M 
用 或 框架 应 该 在 进程 启动 时 设 定 区 域 设 置 ， 而 且 此 后 不 要 再 修改 。 


。 操作 系 统 必须 支持 区 域 设 置 ， 否 则 setlocale 函数 会 抛 出 
locale.Error: unsupported locale setting 异常 。 


。 必须 知道 如 何 拼写 区 域名 称 。 它 在 Unix 衍生 系统 中 几乎 已 经 形成 
标准 ， 要 通过 'language_code.encoding' $kHy. 19 但 是 在 
Windows 中 ， 句 法 复杂 一 些 : Language Name-Language 
Variant_Region Name.codepage。 注 意 ,，“Language Name” CE 
HAM) ~ “Language Variant”( 语 言 变 体 ) 和 “Region Name” (XER 
Z) 中 可 以 包含 空格 ， 除 了 第 一 部 分 之 外 ， 其 他 部 分 的 前 面 是 不 同 
的 字符 : 一 个 连 字 符 、 一 个 下 划 线 和 一 个 点 号 。 除 了 语言 名 称 之 
外 ， 其 他 部 分 好 像 都 是 可 选 的 。 例 如 ，English_United 
States.856， 它 的 语言 名 称 是 “English”， 区 域 是 “United States”, 
代码 页 是 “850”。Windows 能 理解 的 语言 名 称 和 区 域名 见于 MSDN 
中 的 文章 “Language Identifier Constants and 
Strings” Chttps://msdn.microsoft.com/en-us/library/dd318693.aspx) ， 
还 有 “Code Page Identifiers” (https://msdn.microsoft.com/en- 
us/library/windows/desktop/dd317756(v=vs.85).aspx) 一 文 列 出 了 最 
后 一 部 分 的 代码 页 数字 。 世 


操作 系统 的 制作 者 必须 正确 实现 了 所 设 的 区 域 。 我 在 Ubuntu 14.04 
中 成 功 了 ， 但 在 OS X (Mavericks 10.9) 中 却 失 败 了 。 在 两 台 Mac 
中 ， 调 用 setlocale(LC_COLLATE, 'pt_BR.UTF-8') 返回 的 都 


是 字符 串 'pt_BR.UTF-8'， 没 有 任何 问题 。 但 

je, sorted(fruits, key=locale.strxfrm) 得 到 的 结果 与 
sorted(fruits) 一 样 ， 是 错误 的 。 我 还 在 OS X 中 尝试 了 
fr_FR、es_ES 和 de_DE， 但 是 locale.strxfrm fA (EH. 1? 


在 Linux 操作 系统 中 ， 中 国 大 陆 的 读者 可 以 使 用 zh_CN.UTF-8， 简 体 中 文 会 按照 汉语 拼音 顺 
序 进 行 排序 ， 它 也 能 对 和 葡萄牙 语 进行 正确 排序 。 一 一 编者 注 


了 感谢 Leonardo Rochael， 他 所 做 的 工作 超出 了 身 为 技术 审 校 的 职责 ， 虽 然 他 是 GNU/Linux 用 
户 ， 但 却 研 究 了 这 些 Windows 细节 。 


了 2 同样 ， 我 没 找到 解决 方案 ， 不 过 却 发 现 其 他 人 也 报告 了 同样 的 问题 。 本 书 技术 审 校 之 一 Alex 
Marteli， 在 他 装 有 OSX 10.9 的 Mac 电脑 中 使 用 setlocale 和 locale.strxfrm 时 没有 过 到 
问题 。 综 上 : 结果 因 人 而 异 。 


因此 ， 标 准 库 提 供 的 国际 化 排序 方案 可 用 ， 但 是 似乎 只 文 持 
GNU/Linux( 可 能 也 支持 Windows， 但 你 得 是 专家 ) 。 即 便 如 此 ， 还 要 
依赖 区 域 设 置 ， 而 这 会 为 部 署 带 来 问题 。 


幸好 ， 有 个 较为 简单 的 方案 : PyPI 中 的 PyUCA 库 。 


使 用 Unicode 排 序 算法 排序 


James Tauber， 一 位 高 产 的 Django 页 献 者 ， 他 一 定 是 感受 到 了 这 一 痛 
点 ， 因 此 开发 了 PyUCA JÆ Chttps://pypi.python.org/pypi/pyuca/) ， 这 是 
Unicode 排序 算法 (Unicode Collation Algorithm, UCA) 的 纯 Python 实 
BL. AN Bil 4-20 展示 了 它 的 简单 用 法 。 


示例 4-20 使 用 pyuca.Collator.sort_key 方法 


>>> import pyuca 
>>> coll = pyuca.Collator() 
>>> fruits = ['caju', 'atemoia', 'cajá', ‘acai’, 'acerola'] 


>>> sorted_fruits = sorted(fruits, key=coll.sort_key) 
>>> sorted_fruits 
['agai', ‘acerola', ‘atemoia', ‘caja’, ‘caju'] 


这 样 做 更 友好 ， 而 且 恰好 可 用 。 我 在 GNU/Linux. OS X 和 Windows 中 


aa 


做 过 测试 。 目 前 ，PyUCA 只 支持 Python3.x. 1 


139015 年 5 H, PyUCA 重新 支持 Python 2.x, BA: http://jktauber.com/2015/05/13/pyuca- 
supports-python-2-again。 一 一 编者 注 


PyUCA 没有 考虑 区 域 设 置 。 如 果 想 定制 排序 方式 ， 可 以 把 自 定 义 的 排 
表 路 径 传 给 Collator() 构造 方法 。PyUCA 默认 使 用 项 目 自 带 的 
allkeys.txt (https://github.con/jtauber/pyuca) ， 这 就 是 Unicode 6.3.0 
的 “Default Unicode Collation Element 

Table” Chttp://www.unicode.org/Public/UCA/6.3.0/allkeys.txt) 的 副本 。 


顺便 说 一 下 ， 那 个 表 是 Unicode 数据 库 中 众多 表 中 的 一 个 。 下 一 节 会 讨 


论 这 个 话题 。 


aI 


4.8 Unicode 数据 库 


Unicode 标准 提供 了 一 个 完整 的 数据 库 〈 许 多 格式 化 的 文本 文件 ) ， 不 
仅 包 括 码 位 与 字符 名 称 之 间 的 映射 ， 还 有 各 个 字符 的 元 数据 ， 以 及 字符 
之 间 的 关系 。 例 如 ，Unicode 数据 库 记 录 了 字符 是 否 可 以 打印 、 是 不 是 
字母 、 是 不 是 数字 ， 或 者 是 不 是 其 他 数值 符号 。 字 符 串 的 

isidentifier、isprintable、isdecimal 和 isnumeric 等 方法 就 


是 靠 这 些 信 息 作 判断 的 。 str .casefold 方法 也 用 到 了 Unicode 表 中 的 
= 


Ho 


unicodedata 模块 中 有 几 个 函数 用 于 获取 字符 的 元 数据 。 例 如 ， 字 符 在 标 
准 中 的 官方 名 称 是 不 是 组 合 字 符 〈( 如 结合 波形 符 构 成 的 变 首 符 写 等 ) ， 
以 及 符号 对 应 的 人 类 可 读数 值 〈 不 是 码 位 ) 。 示 例 4-21 展示 了 
unicodedata.name() 和 unicodedata.numeric() 函数 ， 以 及 字符 串 
的 .isdecimal() 和 .isnumeric() 方法 的 用 法 。 


示例 4-21 Unicode 数据 库 中 数值 字符 的 元 数据 示例 〈 各 个 标号 说 
明 输 出 中 的 各 列 ) 


import unicodedata 
import re 


re_digit = re.compile(r'\d') 
sample = '1\xbc\xb2\u0969\uU136b\uU216b\uU2466\uU2480\uU3285 ' 


for char in sample: 
print('U+%@4x' % ord(char), 

char.center(6), 
're dig' if re_digit.match(char) else '-', 
‘isdig' if char.isdigit() else '-', 
'isnum' if char.isnumeric() else '-', 
format (unicodedata.numeric(char), '5.2f'), 
unicodedata.name(char), 
sep='\t') 


0 
© 
© 
© 
© 
© 
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O U+0000 格式 的 码 位 。 


O 在 长 度 为 6 的 字符 串 中 居中 显示 字符 。 

© 如 果 字 符 匹 配 正则 表达 式 r'\d'， 显 示 re_dig。 

© 如果 char.isdigit() 返回 True， 显 示 isdig。 

O 如 果 char.isnumeric() 返回 True， 显示 isnum。 

O 使 用 长 度 为 5、 小 数 点 后 保留 2 位 的 浮 点 数 显示 数值 。 

@ Unicode 标准 中 字符 的 名 称 。 

运行 示例 4-21 得 到 的 结果 如 图 4-3 所 示 。 

图 4-3 中 的 第 6 列 是 在 字符 上 调用 unicodedata.numeric(char) 函数 
得 到 的 结果 。 这 表明 ，Unicode 知道 表示 数字 的 符号 的 数值 。 因 此 ， 如 


人 数字 和 罗马 数字 的 电子 表格 应 用 ， 那 就 尽管 
IE ! 


$ python3 numerics_demo.py 

U+0031 1 re_dig isdig isnum 1.00 DIGIT ONE 

U+@Qbc % - - isnum @.25 VULGAR FRACTION ONE QUARTER 
U+00b2 2 - isdig isnum 2.00 SUPERSCRIPT TWO 

U+0969 a re_dig isdig isnum 3.00 DEVANAGARI DIGIT THREE 
U+136b E - isdig isnum 3.00 ETHIOPIC DIGIT THREE 

U+216b XII - - isnum 12.00 ROMAN NUMERAL TWELVE 

U+2466 © - isdig isnum 7.00 CIRCLED DIGIT SEVEN 

U+2480 的 = isnum 13.00 PARENTHESIZED NUMBER THIRTEEN 
T @ = - isnum 6.00 CIRCLED IDEOGRAPH SIX 

$ 


图 4-3: 9 个 数值 字符 及 其 元 数据 ; re_dig 表示 字符 匹配 正则 表达 式 
r'\d' 


图 4-3 表明 ， 正 则 表达 式 r'\d' 能 匹配 数字 “1>” 和 焚 文 数字 3， 但 是 不 
能 匹配 isdigit 方法 判断 为 数字 的 其 他 字符 。re 模块 对 Unicode 的 支 
持 并 不 充分 。PyPI 中 有 个 新 开发 的 regex 模块 ， 它 的 最 终 目 的 是 取代 
模块 ， 以 提供 更 好 的 Unicode 支持 。14 下 一 节 会 回 过 头 来 讨论 re 模 


不 过 在 这 个 示例 中 ， 它 在 识别 数字 方面 的 表现 没有 re 模块 好 。 


本 章 使 用 了 unicodedata 模块 中 的 几 个 函数 ， 但 是 还 有 很 多 没有 用 
到 。 详 情 参 阅 标 准 库 文档 对 unicodedata 模块 的 说 明 
(https://docs.python.org/3/library/unicodedata.html ) 。 


在 结束 对 字符 串 和 字 节 序列 的 讨论 之 前 ， 我 们 还 要 简要 说 明 一 个 新 的 趋 


势 一 一 双 模 式 API， 即 提供 的 函数 能 接受 字符 串 或 字 节 序列 为 参数 ， 然 
后 根据 类 型 进行 特殊 处 理 。 


49 LETA AB Ae Fe Sl] ARAPI 


标准 库 中 的 一 些 函 数 能 接受 字符 串 或 字 市 序列 为 参数 ， 然 后 根据 类 型 展 
现 不 同 的 行为 。re 和 os 模块 中 就 有 这 样 的 函数 。 


4.9.1 ”正则 表达 式 中 的 字符 串 和 字 节 序列 


如 果 使 用 字 节 序列 构建 正则 表达 式 ，\d 和 \w 等 模式 只 能 匹配 ASCII 字 
符 ; HEZ F, WREEF ERN, MAELA ASCII 之 外 的 Unicode 数 
字 或 字母 。 示 例 4-22 和 图 4-4 展示 了 字符 串 模式 和 字 节 序列 模式 中 字 
母 、 ASCII 数字 、 上 标 和 泰 米尔 数字 的 匹配 情况 。 


示例 4-22 ramanujan.py: 比较 简单 的 字符 串 正 则 表达 式 和 字 节 序 
列 正则 表达 式 的 行为 


import re 


re_numbers_ str = re.compile(r'\d+') (1) 
re_words str = re.compile(r'\w+') 
re_numbers_ bytes = re.compile(rb'\d+') @ 
re_words bytes = re.compile(rb'\w+' ) 


text_str = ("Ramanujan saw \u@be7\u@bed\u@be8\uebef" © 
" as 1729 = 13 + 123 = 93 + 103.") (4) 


text_bytes = text_str.encode('utf_8') © 


print('Text', repr(text_str), sep='\n ') 

print('Numbers' ) 

print(' str :', re_numbers_str.findall(text_str)) (6) 
print(' bytes:', re numbers bytes.findall(text bytes)) @ 
print('Words') 

print(' str :', re words str.findall(text str)) (8) 
print(' bytes:', re_words_bytes.findall(text_bytes)) © 


@ 前 两 个 正则 表达 式 是 字符 串 类 型 。 
O 后 两 个 正则 表达 式 是 字 节 序列 类 型 。 


© 要 搜索 的 Unicode MA, FR 1729 的 泰 米尔 数字 (逻辑 行 直 到 右 括 
号 才 结 束 ) 。 

O 这 个 字符 串 在 编译 时 与 前 一 个 拼接 起 来 〈 参 见 Python 语言 参考 手册 
中 的 “2.4.2. String literal 


concatenation”, https://docs.python.org/3/reference/lexical_analysis.html#stri 
literal-concatenation) 。 


BFA A REAP IE AIA TER « 

O 字符 串 模式 Fr" \d+' 能 匹配 泰 米尔 数字 和 ASCII 数字 。 

O FHF rb'\d+' 只 能 匹配 ASCI 字 节 中 的 数字 。 

O 字符 串 模式 r'\w+' 能 匹配 字母 、 上 标 、 泰 米尔 数字 和 ASCII 数字 。 


O 字 厄 序列 模式 rb'\w+' 只 能 匹配 ASCI 字 节 中 的 字母 和 数字 。 


29,9. 1. bash 


$ python3 ramanujan.py 


Text 
"Ramanujan saw seaom aS 1729 = 13 + 123 = 93 + 103." 
Numbers 
str è [aas "1729", “1', "125; "9", "10"] 
bytes: [b'1729', b'1', b'12', b'9', b'10'] 


Words 
str : ['Ramanujan', 'saw', 'sa2æ', 'as', '1729', '13', "123", '93", '103'] 
bytes: [b'Ramanujan', b'saw', b'as', b'1729', b'1', b'12', b'9', b'10'] 


sl 


图 4-4: 运行 示例 4-22 中 的 ramanujan.py 脚本 时 的 截图 


示例 4-22 是 随便 举 的 例子 ， 为 的 是 说 明 一 个 问题 : 可 以 使 用 正则 表达 
式 搜索 字符 串 和 字 市 序列 ， 但 是 在 后 一 种 情况 中 ，ASCII 范围 外 的 字 市 
不 会 当成 数字 和 组 成 单词 的 字母 。 


字符 串 正则 表达 式 有 个 re. ASCII 标志 ， 它 让 
\w、\W、\b、\B、\d、\D、\\s 和 \S 只 匹配 ASCI 字符 。 详 情 参阅 re 
模块 的 文档 (https://docs.python.org/3/library/re.html〉。 
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4.9.2 ”0s 函数 中 的 字符 串 和 字 节 序列 


GNU/Linux 内 核 不 理解 Unicode， 因 此 你 可 能 友 现 了 ， 对 任何 合理 的 编 
码 方案 来 说 ， 在 文件 名 中 使 用 字 节 序列 都 是 无 效 的 ， 无 法 解码 成 字符 
捉 。 在 不 同 操作 系统 中 使 用 各 种 客户 站 的 文件 服务 器 ， 在 遇 到 这 个 问题 
时 尤其 容易 出 错 。 


为 了 规避 这 个 问题 ，os 模块 中 的 所 有 函数 、 文 件 名 或 路 径 名 参数 既 能 
使 用 字符 串 ， 也 能 使 用 字 节 序列 。 如 果 这 样 的 函数 使 用 字符 串 参 数 调 

用 ， 该 参数 会 使 用 sys .getfilesystemencoding() 得 到 的 编 解 码 器 
自动 编码 ， 然 后 操作 系统 会 使 用 相同 的 编 解 码 器 解码 。 这 几乎 就 是 我 们 
想 要 的 行为 ， 与 Unicode 三 明治 最 佳 实践 一 致 。 


但 是 ， 如 果 必 须 处 理 〈 也 可 能 是 修正 ) 那些 无 法 使 用 上 述 方式 自动 处 理 
的 文件 名 ， 可 以 把 字 节 序列 参数 传 给 os 模块 中 的 函数 ， 得 到 字 节 序列 
返回 值 。 这 一 特性 允许 我 们 处 理 任 何 文件 名 或 路 径 名 ， 不 管 里 面 有 多 少 
鬼 符 ， 如 示例 4-23 所 示 。 


示例 4-23 ”把 字符 串 和 字 节 序列 参数 传 给 1istdir 函数 得 到 的 结 
下 


>>> os.listdir('.') # © 
['abc.txt', ‘digits-of-n.txt'] 


>>> os.listdir(b'.') # @ 
[b'abc.txt', b'digits-of-\xcf\x8e.txt" ] 


O 第 二 个 文件 名 是 “digits-ofrtxf” (有 一 个 希腊 字母 r) 。 


O 参数 是 字 节 序列 ，1istdir 函数 返回 的 文件 名 也 是 字 节 序 
列 : b'\xcf\x80' 是 希腊 字母 x 的 UTF-8 编码 。 


为 了 便于 手动 处 理 字 符 串 或 字 节 序列 形式 的 文件 名 或 路 径 名 ，os 模块 
提供 了 特殊 的 编码 和 解码 函数 。 


fsencode(filename) 


如 果 Filename 是 str 类 型 (此 外 还 可 能 是 bytes 类 型 ) ， 使 用 
sys .getfilesystemencoding() 返回 的 编 解 码 器 把 Filename 编码 成 
字 节 序列 ; 否则， 返回 未 经 修改 的 Filename FFA. 


fsdecode(filename) 


如 果 Filename 是 bytes 类 型 (此 外 还 可 能 是 str 类 型 ) ， 使 用 
sys.getfilesystemencoding() 返回 的 编 解码 器 把 Filename 解码 成 
字符 串 ; 否则 ， 返 回 未 经 修改 的 filename 字符 串 。 


在 Unix 衍生 平台 中 ， 这 些 函 数 使 用 surrogateescape 错误 处 理 方式 
《参见 下 述 附 注 栏 ) 以 避免 遇 到 意外 字 节 序列 时 卡 住 。Windows 使 用 的 
普 误 处 理 方式 是 strict. 


使 用 surrogateescape 处 理 鬼 符 


Python 3.1 引入 的 surrogateescape 编 解 码 器 错误 处 理 方式 是 处 理 
意外 字 节 序列 或 未 知 编码 的 一 种 方式 ， 它 的 说 明 参 见 "PEP 383 一 
Non-decodable Bytes in System Character 

Interfaces” Chttps://www.python.org/dev/peps/pep-0383/) 。 


这 种 错误 处 理 方式 会 把 每 个 无 法 解码 的 字 节 替换 成 Unicode 中 
U+DC00 到 U+DCFF 之 间 的 码 位 (Unicode 标准 把 这 些 码 位 称 

为 “Low Surrogate Area”) ， 这 些 码 位 是 保留 的 ， 没 有 分 配 字 符 ， 供 
应 用 程序 内 部 使 用 。 编 码 时 ， 这 些 码 位 会 转换 成 被 奉 换 的 字 节 值 ， 
如 示例 4-24 所 示 。 


示例 4-24 使 用 surrogateescape 错误 处 理 方式 


>>> os.listdir('.') @ 

['abc.txt', ‘digits-of-n.txt' ] 

>>> os.listdir(b'.') @ 

[b'abc.txt', b'digits-of-\xcf\x80.txt" ] 

>>> pi_name_bytes = os.listdir(b'.')[1] © 


>>> pi_name_str = pi_name_bytes.decode('ascii', 'surrogateescape') @ 
>>> pi name str © 

"digits-of-\udccf\udc8e@.txt' 

>>> pi_name_str.encode('ascii', 'surrogateescape') © 
b'digits-of-\xcf\x80.txt 


O 列 出 目录 里 的 文件 ， 有 个 文件 名 中 包含 非 ASCII 字符 。 
O 假设 我 们 不 知道 编码 ， 获 取 文 件 名 的 字 节 序列 形式 。 
© pi_names_bytes 是 包含 的 文件 名 。 


@ 使 用 'ascii' 编 解 码 器 和 'surrogateescape' 错误 处 理 方式 把 
它 解码 成 字符 串 。 


© 和 名 个 非 ASCH FRM ASL: = '\xcf\x8e' 变 成 
J '\udccf\udc8e'. 


O 编码 成 ASCII 字 节 序列 : AAMAS ALE BOR RA FE 
我 们 对 字符 串 和 字 节 序列 的 探讨 到 此 结束 。 如 果 你 坚持 读 到 这 里 ， 茶 喜 


你 ! 


4.10 ”本章 小 结 


本 章 首先 澄清 了 人 们 对 一 个 字符 等 于 一 个 字 节 的 误解 。 随 着 Unicode 的 
广泛 使 用 (80% 的 网 站 已 经 使 用 UTF-8) ， 我 们 必须 把 文本 字符 串 与 它 
而 Python 3 中 这 个 区 分 是 强制 
Mo 


Xf bytes, bytearray Ail memoryview 等 二 进 制 序列 数据 类 型 做 了 简要 
概述 之 后 ， 我 们 转 到 了 编码 和 解码 话题 ， 通 过 示例 展示 了 重要 的 编 解码 
器 ; 随后 讨论 了 如 何 避 免 和 处 理 自 名 昭著 的 UnicodeEncodeError 和 
UnicodeDecodeError， 以 及 由 于 Python 源码 文件 编码 错误 导致 的 


SyntaxError. 


讨论 源码 的 编码 问题 时 ， 我 表明 了 上 自己 对 非 ASCII 标识 符 的 观点 : 如果 
代码 基 的 维护 者 想 使 用 包含 非 ASCI 字符 的 人 类 语言 命名 标识 符 ， 那 就 
去 做 ， 除 非 还 想 在 Python 2 中 运行 代码 。 但 是 ， 如 果 项 目 想 吸引 世界 各 
国 的 贡献 者 ， 那 么 标识 符 应 该 使 用 英语 单词 ， 此 时 ASCI 就 够 用 了 。 


然后 ， 我 们 说 明了 在 没有 元 数据 的 情况 下 检测 编码 的 理论 和 实际 情况 : 
理论 上 ， 做 不 到 这 一 点 ; 但 是 实际 上 ，Chardet 包 能 够 正确 处 理 一 些 流 
行 的 编码 。 随 后 介绍 了 字 节 序 标记 ， 这 是 UTF-16 和 UTF-32 文件 中 常 
见 的 编码 提示 ， 某 些 UTF-8 文件 中 也 有 。 


随后 的 一 和 演示 了 如 何 打 开 文 本 文件 ， 这 是 一 项 简单 的 任务 ， 不 过 有 个 
陷阱 ， 打开 文本 文件 时 ，encoding= 关键 字 参 数 不 是 必需 的 ， 但 是 应 该 
站 定 。 如 果 没 有 指定 编码 ， 那 么 程序 会 想方设法 生成 “ 纯 文本 ， 如 此 一 
来 ， 不 一 致 的 默认 编码 就 会 导致 路 平台 不 兼容 性 。 然 后 ， 我 们 说 明了 
Python 用 作 默 认 值 的 几 个 编码 设置 ， 以 及 如 何 检 测 它 

们 : locale.getpreferredencoding(). sys.getfilesystemencod: 
以 及 标准 VO 文件 (如 sys.stdout.encoding) 的 编码 。 对 Windows 
用 户 来 资 ， 现 实 不 容 乐 观 : 这 些 设置 在 同一 人 台 设 备 中 往往 有 不 同 的 值 ， 
而 且 各 个 设置 相互 不 兼容 。 而 对 GNU/ Linux 和 OS X 用 户 来 说 ， 情 况 就 
好 多 了 ， 几 乎 所 有 地 方 使 用 的 默认 值 都 是 UTF-8。 


文本 比较 是 个 异常 复杂 的 任务 ， 因 为 Unicode 为 某 些 字符 提供 了 不 同 的 


KIR, PROAVLAC SCA 2 AE SCA. TAR ALK DS HBS 
后 ， 我 们 提供 了 几 个 实用 函数 ， 你 可 以 根据 自己 的 需求 改编 。 其 中 有 个 
函数 所 做 的 是 极端 转换 ， 比 如 去 抒 所 有 重音 符号 。 随 后 ， 我 们 说 明了 如 
何 使 用 标准 库 中 的 locale 模块 正确 地 排序 Unicode 文本 〈 有 一 些 注 意 
J] 区域 配 置 。 


最 后 简要 介绍 了 Unicode 数据 库 〈( 包 含 每 个 字符 的 元 数据 ) ， 还 简单 讨 
论 了 双 模 式 API (例如 re 和 os 模块 ， 这 两 个 模块 中 的 茶 些 函数 可 以 接 
受 字 人 符 串 或 字 市 序列 参数 ， 返 回 不 同 但 合适 的 结果 )。 


4.11 延伸 阅读 


Ned Batchelder 在 2012 年 的 PyCon US 所 做 的 演讲 “Pragmatic Unicode— 
or—How Do I Stop the Pain?” Chttp://nedbatchelder.com/text/unipain.html ) 
非常 出 色 。Ned 很 专业 ， 除 了 约 灯 户 和 视频 之 外 ， 他 还 提供 了 完整 的 文 
字 记 录 。Esther Nam 和 Travis Fischer 在 PyCon 2014 做 了 一 场 精彩 的 演 
讲 : “Character encoding and Unicode in Python: How to (~ °a°)7 一 
十 -一 上 with dignity’[ 幻灯 片 
Chttp://www.slideshare.net/fischertrav/character-encoding-unicode-how-to- 
with-dignity-33352863) ， 视 频 Chttp://pyvideo.org/pycon-us- 
2014/character-encoding-and-unicode-in-python.html) ]。 本 章 开 头 那 句 简 
ROA IAN Ta EH ARE: “人 类 使 用 文本 ， 计 算 机 使 用 字 节 序 
列 。” 本 书 的 技术 审 校 之 一 Lennart Regebro 在 “Unconfusing Unicode: What 
Is Unicode?” (https://regebro.wordpress.com/2011/03/23/unconfusing- 
unicode-what-is-unicode/) 这 篇 短文 中 提出 了 “Useful Mental Model of 
Unicode (UMMU) ”. Unicode 是 个 复杂 的 标准 ，Lennart 提出 的 UMMU 
是 个 很 好 的 切入 点 。 


Python 文档 中 的 “Unicode HOWTO” 一 文 
(https://docs.python.org/3/howto/unicode.html〉 从 几 个 不 同 的 角度 对 本 章 
所 涉及 的 话题 做 了 讨论 ， 从 编码 历史 到 句法 细节 、 编 解码 占 、 正 则 表达 
式 、 文 件 名 和 Unicode 的 VO RIEKE CEN Unicode 三 明治 ) ， 而 且 各 
节 都 给 出 了 大 量 参考 资料 链接 。ZDive into Python 3 是 一 本 非常 优秀 的 书 
(Mark Pilgrim 44, http://www.diveintopython3.net) ， 其 中 第 4 
“Strings” Chttp://www.diveintopython3.net/strings.html) 对 Python 3 对 
Unicode 的 文 持 做 了 很 好 的 介绍 。 此 外 ， 该 书 的 第 15 章 
Chttp://getpython3 .con/diveintopython3/case-study-porting-chardet-to- 
python-3.html) [Ji  Chardet 库 从 Python 2 移植 到 Python 3 Witte, 1 
是 一 个 宝贵 的 案例 分 析 ， 从 中 可 以 看 出 ， 从 旧 的 str 类 型 转 到 新 的 
ene 也 是 检测 编码 的 库 应 该 天 


如 果 你 用 过 Python 2， 但 是 刚 接触 Python3， 可 以 阅读 Guido van Rossum 
写 的 “Whats New in Python 
3.0” Chttps://docs.python.org/3.0/whatsnew/3.0.html#text-vs-data-instead-of- 


unicode-vs-8-bit) ， 这 篇 文章 简要 列 出 了 新 版 的 15 点 变化 ， 而 且 附 有 很 
多 链接 。Guido 开门 见 山 地 说 道 : “你 自 以 为 知道 的 二 进 制 数据 和 
Unicode 知识 全 都 变 了 。”Armin Ronacher 的 博客 文章 “The Updated Guide 
to Unicode on Python” Chttp://lucumr.pocoo.org/2013/7/2/the-updated-guide- 
to-unicode/) 深入 分 析 了 Python 3 中 Unicode 的 一 些 陷 阱 〈Armin 不 是 很 
热衷 于 Python3) 。 


《Python Cookbook (2 3 fig) 中 文 版 》 (David Beazley 和 Brian K. Jones 
R) 的 第 2 SESE APR CAR LPR IS RAI S Unicode 规范 化 、 清 
洗 文 本 ， 以 及 在 字 节 序列 上 执行 面 同文 本 的 操作 。 第 5 章 涵 盖 文 件 和 
VO, “5.17 将 字 市 数据 写 入 文本 文件 ”指出 ， 任 何 文本 文件 的 底层 都 有 一 
个 二 进 制 流 ， 如 果 需 要 可 以 直接 访问 。 之 后 的 “6.11 读 写 二 进 制 结构 的 
数组 ”用 到 了 struct 模块 。 


Nick Coghlan 的 “Python Notes” 博 客 中 有 两 篇 文章 与 本 章 的 话题 十 分 相 
X: “Python 3 and ASCII Compatible Binary Protocols” (http://python- 
notes.curiousefficiency.org/en/latest/python3/binary_protocols.html ) 

和 “Processing Text Files in Python 3” Chttp://python- 
notes.curiousefficiency.org/en/latest/python3/text file processing.html) > 4H 


烈 推荐 阅读 。 


Python 3.5 将 为 二 进 制 序列 引入 新 的 构造 方法 和 方法 ， 而 且 会 废弃 目前 
使 用 的 构造 方法 签名 (参见 “PEP 467 一 Minor API improvements for binary 
sequences”, https://www.python.org/dev/peps/pep-0467/) 。 此 外 ，Python 
3.5 还 会 实现 “PEP 461—Adding % formatting to bytes and 

bytearray” Chttps://www.python.org/dev/peps/pep-0461/) 。 


Python 文 持 的 编码 列表 参见 codecs 模块 文档 的 “Standard Encodings” — 
他 (https://docs.python.org/3/library/codecs.html#standard-encodings )。 如 
果 需 要 通过 编程 的 方式 获得 那个 列表 ， 看 看 CPython 源码 中 
/Tools/unicode/listcodecs.py 脚本 

(https://hg.python.org/cpython/file/6dcc96fa3970/Tools/unicode/listcodecs.py 
是 怎么 做 的 。 


Martijn Faassen [J X “Changing the Python Default Encoding Considered 
Harmful” Chttp://blog.startifact.com/posts/older/changing-the-python-default- 
encoding-considered-harmful.html) 和 Tarek Ziadé 的 文 


Eit 


E “sys.setdefaultencoding Is 


Evil” Chttp://blog.ziade.org/2008/01/08/syssetdefaultencoding-is-evil/) 解释 
了 为 什么 一 定 不 能 修改 sys.getdefaultencoding() 获取 的 编码 ， 即 
便 知 道 怎么 做 也 不 能 改 。 


Unicode Explained (Jukka K. Korpela 34, O'Reilly 出 版 

žŁ, http://shop.oreilly.com/product/9780596101213.do) 和 Unicode 
Demystified (Richard Gillam 3, Addison-Wesley 出 版 

4t., http://www. informit.com/store/unicode-demystified-a-practical- 
programmers-guide-to-9780201700527) 这 两 本 书 不 是 针对 Python 的 ， 但 
在 我 学 习 Unicode 相关 概念 时 给 了 我 很 大 的 帮助 。Victor Stinner 的 著作 
Programming with 

Unicode (http://unicodebook.readthedocs.org/index.html) 是 一 本 免费 的 自 
出 版 图 书 (遵守 CC BY-SA 协议 ) ， 其 中 讨论 了 一 般 的 Unicode 话题 ， 
以 及 主流 操作 系统 和 几 门 编程 语言 (包括 Python) 中 的 相关 工具 和 
API. 


W3C 网 站 中 的 “Case Folding: An 

Introduction” Chttps://www.w3.org/International/wiki/Case_folding) 

和 “Character Model for the World Wide Web: String Matching and 
Searching” (https://www.w3.org/TR/charmod-norm/) 讨论 了 规范 化 相关 
的 概念 ， 前 者 是 介绍 性 文章 ， 后 者 则 是 以 枯燥 的 标准 用 语 写 就 的 工作 草 
案 “Unicode Standard Annex #15—Unicode Normalization 

Forms” Chttp://unicode.org/reports/tr15/) 也 是 这 种 风格 。Unicode.org 网 
站 中 的 “Frequently Asked Questions / 

Normalization” (http://www.unicode.org/faq/normalization.html) 更 容易 理 
f, Mark Davis 写 的 “NFC FAQ” Chttp://www.macchiato.com/unicode/nfe- 
faq) 也 是 如 此 。Mark 是 多 个 Unicode 算法 的 作者 ， 在 我 写作 本 书 时 ， 

他 还 担任 Unicode 联盟 的 主席 。 


N 


谈 


a 


“ 纯 文 本 ”是 什么 
对 于 经 常 处理 非 瑞 语文 本 的 人 来 说 ,“ 纯 文本 ”并 不 是 指 “ASCIT”。 
Unicode 词汇 表 (http://www.unicode.org/glossary/#plain text) 是 这 
样 定义 纯 文本 的 : 


只 由 特定 标准 的 码 位 序列 组 成 的 计算 机 编码 文本 ， 其 中 不 合 其 


他 格式 化 或 结构 化 信息 。 


这 个 定义 的 前 半 句 说 得 很 好 ， 但 是 我 不 同意 后 半 人 名。HTML 就 是 包 
含 格式 化 和 结构 化 信息 的 纯 文本 格式 ， 但 它 依然 是 纯 文本 ， 因 为 
HTML 文件 中 的 每 个 字 节 都 表示 文本 字符 (通常 使 用 UTF-8 编 

人 码 ) ， 没 有 任何 字 节 表示 文本 之 外 的 信息 。.png 或 .xsl 文档 则 不 
同 ， 其 中 多 数字 节 表 示 打 包 的 二 进 制 值 ， 例 如 RGB 值 和 浮 点 数 。 
在 纯 文本 中 ， 数 字 使 用 数字 符号 序列 表示 。 


这 本 书 是 我 用 一 种 名 为 

AsciiDoc (http:/www.methods.co.nzasciidoc/， 很 讽刺 ) 的 纯 文 本 格 
式 撰写 的 ， 它 是 OReilly 优秀 的 图 书 出 版 平台 

Atlas Chttps://atlas.oreilly.com/) 的 工具 链 中 的 一 部 分 。AsciiDoc 的 
源 文 件 是 纯 文 本 ， 但 用 的 是 UTF-8 编码 ， 而 不 是 ASCI。 如 果 不 这 
样 做 的 话 ， 撰 写本 章 必 定 痛 将 不 堪 。 姑 且 不 管 名 称 ，AsciiDoc 是 个 
很 棒 的 工具 。 


Unicode 的 世界 正在 不 断 扩 张 ， 但 是 有 些 边 缘 场 景 缺 少 文 持 工 具 。 

因此 图 4-1、 图 4-3 和 图 4-4 中 的 内 容 要 使 用 图 像 ， 因 为 浓 染 本 书 
的 字体 中 缺少 一 些 我 想 展示 的 字符 。 不 过 ，Ubuntu 14.04 和 OS X 

10.9 的 终端 能 正确 显示 ， 包 括 “mojibake”( 文 字 化 路 ) 这 个 日 文 的 
Ta] 。 


it fe A 1 HY) Unicode 


讨论 Unicode 规范 化 时 ， 我 经 党 使 用 “往往 “多 数 ” 和 “通常 ”等 不 确 
定 的 修饰 语 。 很 遗憾 ， 我 不 能 提供 更 可 靠 的 建议 ， 因 为 Unicode 规 
则 有 很 多 例外 ， 很 难 百 分 之 百 确定 。 


YOO, u GS) 是 “兼容 字符 "， 而 Q (欧姆 ) 和 A( 埃 ) 符号 
却 不 是 。 这 种 差别 是 有 真实 影响 的 :NFC 规范 化 形式 (推荐 用 于 文 
本 匹配 ) 会 把 Q (欧姆) BARA (大 写 希 腊 字 母 欧米 加 〉 ， 把 
A Ga) BARA (上 有 圆圈 的 大 写字 母 A) 。 但 是 ， 作 为 “兼容 字 
FEA) wo WES) 不 会 蔡 换 成 视觉 等 效 的 (小 写 希 腊 字 母 上 ) ; 
不 过 在 使 用 更 极端 的 NFKC 或 NFKD 规范 化 形式 时 会 蔡 换 ， 但 这 
是 有 损 转 换 。 


我 能 理解 为 什么 把 上 AIS) 纳入 Unicode, AVN latinl 编码 中 


有 它 ， 如 果 换 成 希腊 字母 上 ， 会 破坏 两 种 编码 之 间 的 转换 。 说 到 
底 ， 这 就 是 微 符号 是 “兼容 字符 ”的 原因 。 但 是 ， 如 果 是 由 于 兼容 原 
因而 没 把 欧姆 和 埃 符 号 纳入 Unicode， 那 为 什么 这 两 个 符号 要 存 
Æ? Unicode 已 经 为 GREEK CAPITAL LETTER OMEGA 和 LATIN 
CAPITAL LETTER A WITH RING ABOVE 分 配 了 码 位 ， 它 们 的 外 观 
一 样 ， 而 且 NFC 规范 化 形式 会 蔡 换 它们 。 想 想 看 吧 。 


研究 Unicode 几 小 时 之 后 ， 我 猜测 的 原因 是 : Unicode 异常 复杂 ， 
充满 特殊 情况 ， 而 且 要 和 覆盖 各 种 人 类 语言 和 产业 标准 策略 。 


在 RAM 中 如 何 表 示 字 符 串 


Python 官方 文档 对 字符 串 的 码 位 在 内 存 中 如 何 存 储 避 而 不 谈 。 毕 
竞 ， 这 是 实现 细节 。 理 论 上 ， 怎 么 存储 都 没关系 : 不 管内 部 表述 如 
何 ， 和 输出 时 每 个 字符 串 都 要 编码 成 字 节 序列 。 


在 内 存 中 ，Python 3 使 用 固定 数量 的 字 节 存储 字符 串 的 各 个 码 位 ， 
以 便 高 效 访问 各 个 字符 或 切片 。 


在 Python 3.3 之 前 ， 编 译 CPython 时 可 以 配置 在 内 存 中 使 用 16 位 或 
32 位 存储 各 个 码 位 。16 MEEK” (narrow build) , 32 位 

是 “ 宽 构 建 ”(wide build) 。 如 果 想 知道 用 的 是 哪个 ， 要 查看 
sys.maxunicode 的 值 ，65535 表示 “ 罕 构 建 ”， 不 能 透明 地 处 理 
U+FFFF 以 上 的 码 位 。“ 宽 构建 ?没有 这 个 限制 ， 但 是 消耗 的 内 存 更 
多 : 每 个 字符 占 4 个 字 节 ， 就 算是 中 文 象形 文字 的 码 位 大 多 数 也 只 
2 个 字 节 。 这 两 种 构建 没有 高 下 之 分 ， 应 该 根据 自己 的 需求 选 
DX 

Eo 


从 Python 3.3 起 ， 创 建 str 对 象 时 ， 解 释 器 会 检查 里 面 的 字符 ， 然 
后 为 该 字符 串 选 择 最 经 济 的 内 存 布局 : 如果 字 符 都 在 latini 字符 
Se, AREAL 1 SEEMS; 否则 ， 根 据 字 符 串 中 的 具 
体 字 符 ， 选 择 2 个 或 4 个 字 节 存储 每 个 码 位 。 这 是 简 述 ， 完 整 细 节 
参阅 “PEP 393 一 Flexible String 

Representation” Chttps://www.python.org/dev/peps/pep-0393/) 。 


灵活 的 字符 串 表述 类 似 于 Python 3 对 int 类 型 的 处 理 方式 ， 如 果 一 


个 整数 在 一 个 机 器 字 中 放 得 下 ， 那 就 存储 在 一 个 机 器 字 中 ;人 否则 解 
释 器 切换 成 变 长 表述 ， 类 似 于 Python 2 中 的 long 类 型 。 这 种 聪明 


的 做 法 得 到 推广 ， 真 是 让 人 欢喜 ! 


Boa ER 
分 “把 函数 视 作对 象 


第 $ 章 ”一 等 图 数 


不 管 别 人 怎么 说 或 怎么 想 ， 我 从 未 觉得 Python 受到 来 自 函 数 式 语言 
的 太 多 影响 ， 我 非常 熟悉 命令 式 语言 ， 如 C 和 Algol 68, 里 然 我 把 
函数 定 为 一 等 对 象 ， 但 是 我 并 不 把 Python 当 作 函数 式 编程 语言 。1 


— Guido van Rossum 


Python 仁慈 的 独裁 者 


1 摘录 自 Guido 的 The History of Python 博客 ，“Origins of Python's Functional 
Features” (http://python-history. blogspot.jp/2009/04/origins-of-pythons-functional-features.html) 。 


在 Python 中 ， 函 数 是 一 等 对 象 。 编 程 语言 理论 家 把 “一 等 对 象 " 定 义 为 满 
足下 述 条 件 的 程序 实体 : 


。 在 运行 时 创建 

。 能 赋值 给 变量 或 数据 结构 中 的 元 素 

。 能 作为 参数 传 给 函数 

能 作为 函数 的 返回 结果 

在 Python 中 ， 整 数 、 字 符 串 和 字典 都 是 一 等 对 


ALTE Python 之 前 ， 你 使 用 的 语言 并 未 把 函数 当 作 一 等 公民 ， 那 么 本 革 以 
及 第 三 部 分 余下 的 内 容 将 重点 讨论 把 函数 作为 对 象 的 影响 和 实际 应 用 。 


十 口 
T 
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说 并 不 完美 ， 似 乎 表明 这 是 函数 中 的 特殊 群体 。 在 Python H, MA 
函数 都 是 一 等 对 象 。 


5.1 把 函数 视 作 对 象 


示例 5-1 中 的 控制 台 会 话 表明 ，Python 函数 是 对 象 。 这 里 我 们 创建 了 一 
SRA, ARE, BEM doc _ 属 性， 并且 确定 函数 对 象 本 
身 是 function 类 的 实例 。 


示例 5-1 创建 并 测试 一 个 函数 ， 然 后 读 取 它 的 、 doc Jatt, H 
检查 它 的 类 型 


>>> def factorial(n): © 
saw "returns nl 
return 1 if n < 2 else n * factorial(n-1) 


>>> factorial(42) 


1405006117752879898543142606244511569936384e00000000 
>>> factorial. doc _ 

"returns n!' 

>>> type(factorial) © 

<class ‘'function'> 


Ox 是 一 个 控制 台 18, A ERAT AE LE “3 运行 时 ”创建 一 个 函 数 。 
@ doc ”是 函数 对 象 众多 属性 中 的 一 个 。 
© factorial 是 function 类 的 实例 。 


_ doc _ 属性 用 于 生成 对 象 的 帮助 文本 。 在 Python 交互 式 控制 台 
中 ，help(factorial) 命令 输出 的 内 容 如 图 5-1 所 示 。 


e090 1. less 


图 5-1: factorial 函数 的 帮助 界面 ; 输出 的 文本 来 自 函 数 对 象 的 
_doc ”属性 


示例 5-2 展示 了 函数 对 象 的 “一 等 "本 性 。 我 们 可 以 把 factorial 函数 赋 
值 给 变量 fact， 然 后 通过 变量 名 调用 。 我 们 还 能 把 它 作 为 参数 传 给 
map 函数 。map 函数 返回 一 个 可 和 迭代 对 象 ， 里 面 的 元 素 是 把 第 一 个 参数 
(一 个 函数 ) 应 用 到 第 二 个 参数 〈 一 个 可 和 迭代 对 象 ， 这 里 是 
range(11)) 中 各 个 元 系 上 得 到 的 结果 。 


示例 5-2 通过 别 的 名 称 使 用 函数 ， 表 把 函数 作为 参数 传递 


>>> fact = factorial 

>>> fact 

<function factorial at @x...> 
>>> fact(5) 


120 

>>> map(factorial, range(11)) 

<map object at @x...> 

>>> list(map(fact, range(11))) 

[1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] 


有 了 一 等 函数 ， 就 可 以 使 用 函数 式 风 格 编程 。 函 数 式 编程 的 特点 之 一 是 
使 用 高 阶 函 数 这 是 下 一 节 的 话题 。 


5.2 局 阶 函 数 


接受 函数 为 参数 ， 或 者 把 函数 作为 结果 返回 的 函数 是 高 阶 函 数 Chigher- 
order function) . map 函数 惑 是 一 例 ， 如 示例 5-2 所 示 。 此 外 ， 内 置 函 
数 sorted 也 是 : 可 选 的 key 参数 用 于 提供 一 个 函数 ， 它 会 应 用 到 各 个 
元 素 上 进行 排序 ， 参 见 2.7 市 。 


例如 ， 若 想 根据 单词 的 长 度 排 序 ， 只 需 把 len 函数 传 给 key 参数 ， 如 
示例 5-3 所 示 。 


示例 5-3 ”根据 单词 长 度 给 一 个 列表 排序 


>>> fruits = ['strawberry', 'fig', 'apple', ‘cherry', 'raspberry', 'banana'] 
>>> sorted(fruits, key=len) 


['fig', ‘apple’, ‘cherry’, ‘banana’, ‘raspberry’, ‘strawberry’ ] 
>>> 


任何 单 参数 函数 都 能 作为 key 参数 的 值 。 例 如 ， 为 了 创建 押韵 词典 ， 可 

以 把 各 个 单词 反 过 来 拼写 ， 然 后 排序 。 注 意 ， ph 54 中 列表 里 的 单词 

eee 子 条 件 ， 因 此 各 种 浆果 Cherry) 都 
王 一 起。 


示例 5-4 ”根据 反 向 拼写 给 一 个 单词 列表 排序 


>>> def reverse(word): 

return word[::-1] 
>>> reverse('testing' ) 
"gnitset' 


>>> sorted(fruits, key=reverse) 
['banana', 'apple', 'fig', ‘raspberry', ‘strawberry’, ‘cherry' ] 
>>> 


FE PK AEE SA, BOA AAAI tea BIT eR AL 

map, filter. reduce 和 apply. apply 函数 在 Python 2.3 中 标记 为 过 
时 ， 在 Python 3 中 移 除 了 ， 因 为 不 再 需要 它 了。 如 果 想 使 用 不 定量 的 参 
数 调用 函数 ， 可 以 编写 fn(*args，**keywords)， 不 用 再 编写 
apply(fn, args, kwargs). 


map. filter 和 reduce 这 三 A 外 见 到 ， 不 过 多 数 使 用 场景 
下 都 有 更 好 的 蔡 代 品 。 详 情 参 阅 下 一 


map、filter 和 reduce 的 现代 蔡 代 品 


函数 式 语 言 通 常会 提供 map、filter 和 reduce 三 个 高 阶 函数 (有 时 
使 用 不 同 的 名 称 ) 。 在 Python3 中 ，map 和 filter 还 是 内 置 函 数 ， 但 
是 由 于 引入 了 列表 推导 和 生成 器 表达 式 ， 它们 变 得 没 那么 重要 了 。 列 表 
推导 或 生成 器 表达 式 具 有 map 和 filter 两 个 函数 的 功能 ， 而 且 更 易于 
阅读 ， 如 示例 5-5 所 示 。 


示例 5-5 计算 阶乘 列表 : map 和 Filter 与 列表 推导 比较 


>>> list(map(fact, range(6))) @ 
[1, 1, 2, 6, 24, 120] 
>>> [fact(n) for n in range(6)] @ 


[1, 1, 2, 6, 24, 120] 

>>> list(map(factorial, filter(lambda n: n % 2, range(6)))) © 
[1, 6, 120] 

>>> [factorial(n) for n in range(6) if n% 2] @ 

[1, 6, 120] 

>>> 


@ 构建 0! 到 5$! 的 一 个 阶乘 列表 。 
O 使 用 列表 推导 执行 相同 的 操作 。 
© 使 用 map 和 filter 计算 直到 5! 的 奇数 阶乘 列表 。 


O 使 用 列表 推导 做 相同 的 工作 ， 换 掉 map 和 filter， 并 避免 了 使 用 
lambda 表达 式 。 


在 Python3 中 ，map 和 filter ikl MAS (PARAS) ， 因 此 现在 
它们 的 直接 替代 品 是 生成 器 表达 式 〈 在 Python 2 F, 这 两 个 函 数 返回 列 
表 ， 因 此 最 接近 的 蔡 代 品 是 列表 推导 ) 。 


在 Python 2 中 ，reduce 是 内 置 函 数 ， 但 是 在 Python 3 中 放 到 
functools 模块 里 了 。 这 个 函数 最 MALT RAM, H 2003 年 发 布 的 
Python 2.3 开始 ， 最 好 使 用 内 置 的 sum 函数 。 在 可 读 性 和 性 能 方面 ， 这 


是 一 项 重大 改善 〈 见 示例 5-6) 。 
示例 5-6 使 用 reduce 和 sum 计算 0~99 之 和 


>>> from functools import reduce @ 
>>> from operator import add @ 

>>> reduce(add, range(10e)) © 

4950 


>>> sum(range(10e)) © 
4950 
>>> 


@ 从 Python 3.0 if, reduce 不 再 是 内 置 函数 了 。 
OSA add， 以 免 创建 一 个 专 求 两 数 之 和 的 函数 。 

© 计算 0~99 之 和 。 

O 使 用 sum 做 相同 的 求 和 ; 无 需 导 入 或 创建 求 和 函数 。 


sum 和 reduce 的 通用 思想 是 把 某 个 操作 连续 应 用 到 序列 的 元 素 上 ， 标 
计 之 前 的 结果 ， 把 一 系列 值 归 约 成 一 个 值 。 


all 和 any 也 是 内 置 的 归 约 函数 。 


all(iterable) 


如 果 iterable 的 每 个 元 素 都 是 真 值 ， 返 回 True; all([]) 返回 


True. 
any(iterable) 


只 要 iterable 中 有 元 素 是 真 值 ， 就 返回 True; any([]) 返 


False. 


10.6 市 将 深入 说 明 reduce 函数 ， 我 会 不 断 改进 一 个 示例 ， 为 这 个 函数 
提供 有 意义 的 上 下 文 。 本 书后 面 的 14.11 节 将 重点 讨论 可 迭代 对 象 ， 届 
时 会 概述 各 个 归 约 函数 。 


为 了 使 用 高 阶 函 数 ， 有 时 创建 一 次 性 的 小 型 函数 更 便利 。 这 便 是 匿名 函 
数 存 在 的 原因 ， 下 一 节 将 会 讨论 。 


S.3 匿名 函数 

lambda 关键 字 在 Python 表达 式 内 创建 匿名 函数 。 

然而 ，Python 简单 的 句法 限制 了 lambda 函数 的 定义 体 只 能 使 用 纯 表 达 
式 。 换 人 句 话说 ，lambda 函数 的 定义 体 中 不 能 赋值 ， 也 不 能 使 用 while 
和 try 等 Python 语句 。 

在 参数 列表 中 最 适合 使 用 匿名 函数 。 人 例如， 示例 5-7 使 用 Lambda 表达 
oe 5-4 PARA TH ial aN ll, RRR a He reverse ph 


~ 5-7 使 用 lambda 表达 式 反 转 拼写 ， 然 后 依 此 给 单词 列表 排 
了 


>>> fruits = ['strawberry', 'fig', 'apple', ‘cherry', 'raspberry', 'banana'] 
>>> sorted(fruits, key=lambda word: word[::-1]) 


['banana', 'apple', 'fig', 'raspberry', 'strawberry', 'cherry'] 
>>> 


除了 作为 参数 传 给 高 阶 函 数 之 外 ，Python 很 少 使 用 匿名 函数 。 由 于 句法 
上 的 限制 ， 非 平凡 的 lambda 表达 式 要 么 难以 阅读 ， 要 么 无 法 写 出 。 


Lundh 提出 的 lambda 表达 式 重 构 秘 笈 


如 果 使 用 lambda 表达 式 导 致 一 段 代 码 难 以 理解 ，Fredrik Lundh 建 
议 像 下 面 这 样 重 构 。 


(1) 编写 注释 ， 说 明 lambda 表达 式 的 作用 。 
(2) 研究 一 会 儿 注 释 ， 并 找 出 一 个 名 称 来 概括 注释 。 
9 把 lambda 表达 式 转换 成 def 语句 ， 使 用 那个 名 称 来 定义 函 


(4) 删除 注释 。 


X JLH tii H “Functional Programming 
HOWTO” Chttps://docs.python.org/3/howto/functional.html) ， 这 是 一 
篇 必 读 文章 。 


lambda 句法 只 是 语法 糖 ， 与 def 语句 一 样 ，lambda 表达 式 会 创建 函 
这 是 Python 中 几 种 可 调用 对 象 的 一 种 。 下 一 节 会 说 明 所 有 可 调 
用 对 象 。 


5.4 可 调用 对 象 


除了 用 户 定义 的 函数 ， 调 用 运算 符 〈 即 ()) 还 可 以 应 用 到 其 他 对 象 
上 。 如 果 想 判断 对 象 能 否 调 用 ， 可 以 使 用 内 置 的 callable() 函数 。 
Python 数据 模型 文档 列 出 了 7 种 可 调用 对 象 。 


用 户 定 义 的 函数 
使 用 def 语句 或 lambda 表达 式 创建 。 
内 置 函数 


使 用 C 语言 〈《CPython) 实现 的 函数 ， 如 len 或 time.strftime。 
内 置 方法 

使 用 C 语言 实现 的 方法 ， 如 dict. get。 
方法 

在 类 的 定义 体 中 定义 的 函数 。 
类 

调用 类 时 会 运行 类 的 new ”方法 创建 一 个 实例 ， 然 后 运行 
init 方法 ， 初 始 化 实例 ， 最 后 把 实例 返回 给 调用 方 。 因 为 Python 
没有 new 运算 符 ， 所 以 调用 类 相当 于 调用 函数 。 通常， 调用 类 会 创建 
ABTS SEB, MIA new ”方法 的 话 ， 也 可 能 出 现 其 他 行为 。 
19.1.3 节 会 见 到 一 个 例子 。 ) 
类 的 实例 


如 果 类 定义 了 call 方法， 那么 它 的 实例 可 以 作为 函数 调用 。 
参见 5.5 节 。 


生成 器 函数 


ea yield 关键 字 的 函数 或 方法 。 调 用 生成 器 函数 返回 的 是 生成 
器 对 象 。 


生成 融 函 数 在 很 多 方面 与 其 他 可 调用 对 象 不 同 ， 详 情 参 见 第 14 ee E 
成 器 函数 还 可 以 作为 协 程 ， 参 见 第 16 章 。 


™ 


Python 中 有 各 种 各 样 可 调用 的 类 型 ， 因 此 判断 对 象 能 否 调用 ， 最 安 
全 的 方法 是 使 用 内 置 的 callable() 函数 : 


>>> abs, str, 13 
(<built-in function abs>, <class 'str'>, 13) 
>>> [callable(obj) for obj in (abs, str, 13)] 


[True, True, False] 


接 下 来 说 明 如 何 把 类 的 实例 变 成 可 调用 的 对 象 。 


5.55 用 户 定 义 的 可 调用 关 型 


AMM Python 函数 是 真正 的 对 象 ， 任 何 Python 对 象 都 可 以 表现 得 像 函 
数 。 为 此 ， 只 需 实现 实例 方法 _ call_。 


示例 5-8 实现 了 BingoCage 类 。 这 个 类 的 实例 使 用 任何 可 迭代 对 象 构 
et ee ee hee 调用 实例 会 取出 一 个 
TUR o 


示例 5-8 bingocall.py: 调用 BingoCage 实例 ， 从 打 乱 的 列表 中 取 
tt “Ga 


import random 
class BingoCage: 


def _ init__(self, items): 
self. items = list(items) @ 
random.shuffle(self. items) @ 


def pick(self): © 
try: 
return self. _items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage') @ 


def _call_ (self): © 
return self.pick() 


Q init 接受 任何 可 迭代 对 象 ， 在 本 地 构建 一 个 副本 ， 防 止 列表 参 
数 的 意外 副作用 。 


© shuffle 定 能 完成 工作 ， 因 为 self._items 是 列表 。 
O 起 主要 作用 的 方法 。 


O 如 果 self. items 为 空 ， 抛 出 异常 ， 并 设 定 错误 消息 。 


O bingo.pick() 的 快捷 方式 是 bingo()。 


下 面 是 示例 5-8 中 定义 的 类 的 简单 演示 。 注 意 ，bingo 实例 可 以 作为 函 
数 调用 ， 而 且 内 置 的 callable(...) 函数 判定 它 是 可 调用 的 对 象 : 
>>> bingo = BingoCage(range(3) ) 


>>> bingo. pick() 
1 


>>> bingo() 
0 


>>> callable(bingo) 
True 


SEO call 方法 的 类 是 创建 函数 类 对 象 的 简便 方式 ， 此 时 必须 在 内 
部 维护 一 个 状态 ， 让 它 在 调用 之 则 可 用 ， 例 如 BingoCage 中 的 剩余 元 
素 。 装 饰 器 就 是 这 样 。 装 饰 器 必须 是 水 数 ， 而 且 有 时 要 在 多 次 调用 之 
间 “ 记 住 ”* 某 些 事 [ 例如 备 忘 (memoization) ， 即 缓存 消耗 大 的 计算 结 
果 ， 供 后 面 使 用 ]。 


创建 保有 内 部 状态 的 函数 ， 还 有 一 种 截然 不 同 的 方式 一 一 使 用 闭 包 。 闭 
包 和 装饰 器 在 第 7 章 讨 论 。 


下 面 讨论 把 函数 视 作对 象 处 理 的 男 一 方面 :运行 时 内 省 。 


5.6 KANA 


除了 _ doc_ ， 函 数 对 象 还 有 很 多 属性 。 使 用 dir 函数 可 以 探知 
factorial 具有 下 述 属 性 : 


>>> dir(factorial) 

['_annotations ', ' call ', '_ class ', ' Closure ','" 
"defaults ', ' delattr ', '_ dict__', '_dir_', '_| 
"__format__', ' ge ',' get ', ' getattribute ', ' 


'_ gt ', '_hash_', '__init__', '__kwdefaults_', ' 
"__module__', '__name_', '_ne_', '__new_', ‘_qualname_', ' 
"__reduce_ex__', ' repr ', ' setattr ', '__sizeof_', '__ 

" subclasshook "|] 

>>> 


其 中 大 多 数 属性 是 Python 对 象 共 有 的 。 本 市 讨论 与 把 函数 视 作 对 象 相关 
的 几 个 属性 ， 先 从 dict 开始 。 


与 用 户 定 义 的 常规 类 一 样 ， 函 数 使 用 __dict__ 属性 存储 赋予 它 的 用 户 
属性 。 这 相当 于 一 种 基本 形式 的 注解 。 一 般 来 襄 ， 为 函数 随意 赋予 属性 
不 是 很 常见 的 做 法 ， 但 是 Django 框架 这 么 做 了 了。 参见 “The Django admin 
site” 文 档 (https://docs.djangoproject.com/en/1.10/ref/contrib/admin/ 〉 中 对 
short_description、boolean 和 allow_tags 属性 的 说 明 。 这 篇 
Django 文档 中 举 了 下 述 示 例 ， 把 short_description 属性 赋予 一 个 方 
管理 后 台 使 用 这 个 方法 时 ， 在 记录 列表 中 会 出 现 指定 的 描述 
文本 : 


def upper_case_name(obj): 
return ("%s %s" % (obj.first_name, obj.last_name) ).upper() 


upper_case_name.short_description = ‘Customer name' 


下 面 重点 说 明 函 数 专 有 而 用 户 定义 的 一 般 对 象 没 有 的 属性 。 计 算 两 个 属 
性 集合 的 差 集 便 能 得 到 函数 专 有 属性 列表 ( 见 示 例 5-9) 。 


示例 5-9 ” 列 出 常规 对 象 没有 而 函数 有 的 属性 


>>> class C: pass # © 

>>> obj = C() #@ 

>>> def func(): pass # © 

>>> sorted(set(dir(func)) - set(dir(obj))) # @ 


['__annotations__', ‘call ', '__closure__', '_ code __', ' defaults _', 
"_ get__', ' globals ', ' kwdefaults ', '__name_', ' qualname "|] 
>>> 


O 创建 一 个 空 的 用 户 定义 的 类 。 

O 创建 一 个 实例 。 

© 创建 一 个 空 函数 。 

@ 计算 差 集 ， 然 后 排序 ， 得 到 类 的 实例 没有 而 函数 有 的 属性 列表 。 
K 5-1 对 示例 5-9 中 列 出 的 属性 做 了 简要 说 明 。 

表 5-1: 用 户 定 义 的 函数 的 属性 


名 称 类 型 说 明 


实现 () 运算 符 ， 即 可 调用 对 象 协 议 


函数 闭 包 ， 即 自由 变量 的 绑 定 通常 是 none) 
泽 成 字 节 码 的 函数 元 数据 和 函数 定义 体 


实现 只 读 描述 符 协议 参见 第 20 FE) 


__globals__ dict KERRE RE REE 


仅 限 关键 字形 式 参数 的 默认 值 


函数 的 限定 名 称 ， 如 Random.choice 〈 参阅 PEP 
二 a 3155, https://www.python.org/dev/peps/pep-3155/) 


后 面 几 节 会 讨论 “defaults 、 code 和 annotations 属 


性 ，IDE 和 框架 使 用 它们 提取 关于 函数 签名 的 信息 。 但 是 ， 为 了 深入 了 
往 ， 我 们 要 先 探 讨 Python 为 声明 函数 形 参 和 传 入 实 参 所 提供 的 
HK AJY 


5.7 ”从 定位 参数 到 仅 限 关键 字 参 数 


Python 最 好 的 特性 之 一 是 提供 了 极为 灵活 的 参数 处 理 机 制 ， 而 且 Python 
3 进一步 提供 了 仅 限 关键 字 参 数 Ckeyword-only argument) 。 与 之 密切 相 
关 的 是 ， 调 用 函数 时 使 用 * 和 RIP TART RR, HR BP NS 
1 5-10 中 的 代码 展示 这 些 特性 ， 实 际 使 用 的 代码 在 示 
多 5-11 中 。 


示例 5-10 tag 函数 用 于 生成 HTML 标签 ;使 用 名 为 cls 的 关键 
字 参 数 传 入 “class” 属 性 ， 这 是 一 种 变通 方法 ， 因 为 “class” 是 Python 
的 关键 字 


def tag(name, *content, cls=None, **attrs): 
Torn 生成 一 个 或 多 个 HTML 标 签 Won 
if cls is not None: 


attrs['class'] = cls 
if attrs: 
attr_str = ''.join(' %s="%s"' % (attr, value) 
for attr, value 
in sorted(attrs.items())) 


else: 
attr_str = "" 
if content: 
return '\n'.join('<%s%s>%s</%s>' % 
(name, attr_str, c, name) for c in content) 
else: 
return '<%s%s />' % (name, attr_str) 


tag 函数 的 调用 方式 很 多 ， 如 示例 5-11 所 示 。 
示例 5-11 tag 函数 〈 见 示例 5-10) 众多 调用 方式 中 的 几 种 


>>> tag('br') © 


"<br />' 

>>> tag('p', 'hello') @ 
"<p>hello</p>' 

>>> print(tag('p', ‘hello’, ‘world')) 
<p>hello</p> 


<p>world</p> 


>>> tag('p', ‘hello', id=33) © 

‘<p id="33">hello</p>' 

>>> print(tag('p', ‘hello', 'world', cls='sidebar')) @ 

<p class="sidebar">hello</p> 

<p class="sidebar" >world</p> 

>>> tag(content='testing', name="img") © 

"<img oe ee />' 

>>> my_tag = {'name': 'img', ‘title’: ‘Sunset Boulevard’, 
"src': ‘sunset.jpg', ‘cls': 'framed'} 


>>> > tag(**my_ tag) © 
"<img class="framed" src="sunset. jpg" title="Sunset Boulevard" />' 


@ 传 入 单个 定位 参数 ， 生 成 一 个 指定 名 称 的 空 标签 
O 第 一 个 参数 后 面 的 任意 个 参数 会 被 *content 捕获 ， 存 入 一 个 元 组 。 


© tag 函数 签名 中 没有 明确 指定 名 称 的 关键 字 参 数 会 被 **attrs 捕 
获 ， 存 入 一 个 字典 。 


O cls 参数 只 能 作为 关键 字 参 数 传 入 。 
© 调用 tag 函数 时 ， 即 便 第 一 个 定位 参数 也 能 作为 关键 字 参 数 传 入 。 


Q 在 my_tag 前 面 加 上 **， 字 典 中 的 所 有 元 素 作 为 单个 参数 传 入 ， 同 
名 键 会 绑 定 到 对 应 的 有 具名 参数 上 ， 余 下 的 则 被 **attrs 捕获 。 


仅 限 关键 字 参 数 是 Python 3 新 增 的 特性 。 在 示例 5-10 F, cls 参数 只 能 
通过 关键 字 参 数 指定 ， 它 一 定 不 会 捕获 未 命名 的 定位 参数 。 定 义 函 数 时 
若 想 指定 仅 限 关键 字 参 数 ， 要 把 它们 放 到 前 面 有 * 的 参数 后 面 。 如 果 不 
想 支 持 数量 不 定 的 定位 参数 ， 但 是 想 支持 仅 限 关键 字 参 数 ， 在 签名 中 放 
fe UTR AAs 


>>> def f(a, *, b): 
return a, b 


>>> > f, b=2) 
(1, 2) 


注意 ， 仅 限 关 键 字 参数 不 一 定 要 有 默认 值 ， 可 以 像 上 例 中 b 那样 ， 强 制 
必须 传 入 实 参 。 


下 面 说 明 函 数 参数 的 内 省 ， 以 一 个 Web 框架 中 的 示例 为 引子 ， 然 后 再 
讨论 内 省 技术 


58 ”获取 关于 参数 的 信息 


HTTP 微 框 架 Bobo 中 有 个 使 用 函数 内 省 的 好 例子 。 示 例 5-12 是 对 Bobo 
教程 中 “Hello world”* 应 用 的 改编 ， 说 明了 内 省 怎么 使 用 。 


示例 5-12 Bobo 知道 hello 需要 person 参数 ， 并 且 从 HTTP 请 
求 中 获取 它 


import bobo 


@bobo. query('/') 


def hello(person): 
return 'Hello %s!' % person 


bobo. query #2 (iat — SEB APL 〈 如 hello) 与 框架 的 请 求 处 理 
机 制 集 成 起 来 了 。 装 饰 器 会 在 第 7 章 讨 论 ， 这 不 是 这 个 示例 的 关键 。 这 
里 的 关键 是 ，Bobo 会 内 省 hello 函数 ， 友 现 它 需要 一 个 名 为 person 
的 参数 ， 然 后 从 请 求 中 获取 那个 名 称 对 应 的 参数 ， 将 其 传 给 hello K 
数 ， 因 此 程序 员 根 本 不 用 触 碰 请 求 对 象 。 


安装 Bobo， 然 后 启动 开发 服务 器 ， 执 行 示 例 5-12 中 的 脚本 〈 例 

il, bobo -f hello.py) 。 访问 http://localhost:8688/ 看 到 的 
消息 是 “Missing form variable person”, HTTP 状态 码 是 403。 这 是 因为 ， 
Bobo 知道 调用 hello 函数 必须 传 入 person 参数 ， 但 是 在 请 求 中 找 不 
到 同名 参数 。 示 例 5-13 在 shell 会 话 中 使 用 curl 展示 了 这 个 行为 。 


示例 5-13 ”如 果 请 求 中 缺少 函数 的 参数 ，Bobo 返回 403 forbidden 
WY; curl -i 的 作用 是 把 首部 转 储 到 标准 输出 


$ curl -i http://localhost:8080/ 
HTTP/1.0 403 Forbidden 

Date: Thu, 21 Aug 2014 21:39:44 GMT 
Server: WSGIServer/@.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 103 


<html> 


<head><title>Missing parameter</title></head> 
<body>Missing form variable person</body> 
</html> 


然而 ， 如 果 访 问 http: //localhost :8080/?person=Jim, MME 
成 字符 串 'Hello Jim!'， 如 示例 5-14 所 示 。 


示例 5-14 传 入 所 需 的 person 参数 才能 得 到 OK 响应 


$ curl -i http://localhost:8080/?person=Jim 
HTTP/1.0 200 OK 

Date: Thu, 21 Aug 2014 21:42:32 GMT 

Server: WSGIServer/@.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 


Content-Length: 10 


Hello Jim! 


Bobo 726A AE A Bl iis LOTS BNE? EMEA MIS BUA BA 
默认 值 呢 ? 


函数 对 象 有 个 defaults _ 属性 ， 它 的 值 是 一 个 元 组 ， 里 面 保 存 着 定 
位 参数 和 关键 字 参 数 的 默认 值 。 仅 限 关 键 字 参数 的 默认 值 在 

_ kwdefaults_ _ 属性 中 。 然 而 ， 参 数 的 名 称 在 __code _ 属性 中 ， 它 
的 值 是 一 个 code 对 象 引 用 ， 目 身 也 有 很 多 属性 。 


为 了 说 明 这 些 属性 的 用 途 ， 下 面 在 clip.py 模块 中 定义 clip 函数 ， 如 示 
例 5-15 所 示 ， 然 后 再 审查 它 。 


示例 5-15 在 指定 长 度 附近 截断 字符 捉 的 函数 


US 


def clip(text, max_ len=80): 
""" 在 max_len 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 


end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', ©, max_len) 
if space before >= @: 
end = space_before 
else: 


space_after = text.rfind(' ', max_len) 
if space_after >= @: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 


示例 5-16 审查 示例 5-15 中 定义 的 clip 函数 ， 碍 看 
_ defaults 、 code .co varnames 和 code .co argcount 


的 值 。 
示例 5-16 提取 关于 函数 参数 的 信息 


>>> from clip import clip 

>>> clip. defaults _ 

(88, ) 

>>> clip. code  # doctest: +ELLIPSIS 


<code object clip at @x...> 

>>> clip. code .co varnames 

('text', 'max_len', ‘end', ‘space _before', 'space_after' ) 
>>> clip. code .co argcount 

2 


可 以 看 出 ， 这 种 组 织 信息 的 方式 并 不 是 最 便利 的 。 参 数 名 称 在 

__code__.co_varnames 中 ， 不 过 里 面 还 有 函数 定义 体 中 创建 的 局 部 
变量 。 因 此 ， 参 数 名 称 是 前 Y 个 字符 串 ，N 的 值 由 
__code__.co_argcount 确定 。 顺 便 说 一 下 ， 这 里 不 包含 前 缀 为 * 或 
** 的 变 长 参数 。 参 数 的 默认 值 只 能 通过 它们 在 _ defaults _ 元 组 中 
的 位 置 确定 ， 因 此 要 从 后 同 前 扫描 才能 把 参数 和 默认 值 对 应 起 来 。 在 这 
个 示例 中 clip 函数 有 两 个 参数 ，text 和 max_len， 其 中 一 个 有 默认 
值 ， 即 88， 因 此 它 必 然 属于 最 后 一 个 参数 ， 即 max_len。 这 有 违 常 
理 。 


幸好 ， 我 们 有 更 好 的 方式 使 用 inspect 模块 。 
下 面 来 看 一 下 示例 5-17. 
示例 5-17 提取 函数 的 签名 ? 


?在 Python 3.5 中 ， 本 示例 的 sig 的 值 是 : <Signature (text，max_len=86)>。 一 一 编者 注 


>>> from clip import clip 

>>> from inspect import signature 

>>> sig = signature(clip) 

>>> sig # doctest: +ELLIPSIS 

<inspect.Signature object at @x...> 

>>> str(sig) 

"(text, max_len=8@)' 

>>> for name, param in sig.parameters.items(): 
print(param.kind, ':', name, '=', param.default) 


POSITIONAL_OR_KEYWORD : text = <class ‘inspect._empty'> 
POSITIONAL_OR_KEYWORD : max_len = 80 


这 样 就 好 多 了 。inspect.signature 函数 返回 一 个 

inspect.Signature 对 象 ， 它 有 一 个 parameters 属性 ， 这 是 一 个 有 

序 映射 ， 把 参数 名 和 inspect.Parameter 对 象 对 应 起 来 。 各 个 

Parameter 属性 也 有 自己 的 属性 ， 例 如 name、default 和 kind。 特 殊 

的 inspect._empty 值 表示 没有 默认 值 ， 考 虑 到 None 是 有 效 的 默认 值 
(也 经 常 这 么 做 ) ， 而 且 这 么 做 是 合理 的 。 


kind 属性 的 值 是 _ParameterKind 类 中 的 5 个 值 之 一 ， 列 举 如 下 。 


POSITIONAL OR_ KEYWORD 


可 以 通过 定位 参数 和 关键 字 参 数 传 入 的 形 参 (多 数 Python 函数 的 参 
数 属于 此 类 ) 。 


VAR_POSITIONAL 
定位 参数 元 组 。 

VAR_KEYWORD 
关键 字 参数 字典 。 

KEYWORD_ONLY 


仅 限 关键 字 参 数 (Python 3 新 增 ) 。 


POSITIONAL_ONLY 


仅 限 定位 参数 ， 目 前 ，Python 声明 函数 的 句法 不 文 持 ， 但 是 有 些 使 
H C 语言 实现 且 不 接受 关键 字 参 数 的 函数 “如 divmod) XF- 


除了 name、default 和 kind，inspect.Parameter 对 象 还 有 一 个 
annotation (注解 ) 属性 ， 它 的 值 通常 是 inspect. empty, 但 是 可 
能 包含 Python 3 新 的 注解 句法 提供 的 函数 签 签名 元 数据 (注解 在 下 一 节 讨 
wW) 。 


inspect.Signature 对 象 有 个 bind 方法 ， de 
到 签名 中 的 形 参 上 ， 上 所 用 的 规则 与 实 参 到 形 参 的 匹配 方式 一 样 。 框 架 
以 使 用 这 个 方法 在 真正 调用 浮 数 前 验证 参数 ， 如 示例 5-18 所 示 。 


不 例 5-18 把 tag 函数 ( 见 示 例 5-10) 的 签名 绑 定 到 一 个 参数 字典 
Ts 


3 在 Python 3.5 中 ， bound a <BoundArguments (name='img', 
cls='framed', attrs={'title': ‘Sunset Boulevard’, ‘src': 'sunset.jpg'})>. 


编者 注 


>>> import inspect 

>>> sig = inspect.signature(tag) @ 

>>> my_tag = {'name': ‘img', ‘title’: ‘Sunset Boulevard’, 

y3 'src': 'sunset.jpg', 'cls': 'framed'} 

>>> bound_args = sig.bind(**my_tag) @ 

>>> bound_args 

<inspect.BoundArguments object at @x...> © 

>>> for name, value in bound_args.arguments.items(): @ 
print(name, '=', value) 


name = img 

cls = framed 

attrs = {'title': 'Sunset Boulevard’, 'src': ‘sunset. jpg‘ } 
>>> del my_tag['name'] © 

>>> bound_args = sig.bind(**my_tag) © 

Traceback (most recent call last): 


TypeError: ‘name’ parameter lacking default value 


@ 获取 tag 函数 〈 见 示例 $S-10) 的 签名 。 


Oth - FRE BEB .bind() 方法 。 
© 得 到 一 个 inspect.BoundArguments 对 象 。 


@ i&{K bound_args.arguments (一 个 OrderedDict 对 象 ) 中 的 元 
素 ， 显 示 参 数 的 名 称 和 值 。 


O 把 必须 指定 的 参数 name 从 my_tag 中 删除 。 

O 调用 sig.bind(*xmy tag)， 抛 出 TypeError， 抱 怨 缺 少 name 参 
数 。 

这 个 示例 在 inspect 模块 的 帮助 下 ， 展 示 了 Python 数据 模型 把 实 参 绑 
定 给 函数 调用 中 的 形 参 的 机 制 ， 这 与 解释 器 使 用 的 机 制 相 同 。 


框架 和 IDE 等 工具 可 以 使 用 这 些 信息 验证 代码 。Python 3 的 力 一 个 特性 
一 一 函数 注解 一 一 增进 了 这 些 信息 的 用 途 ， 参 见 下 一 市 。 


5.9 KAONE 

Python 3 提供 了 一 种 句法 ， 用 于 为 函数 声明 中 的 参数 和 返回 值 附 加 元 数 
据 。 示 例 5-19 是 示例 5-15 添加 注解 后 的 版 本 ， 二 者 唯一 的 区 别 在 第 一 
行 。 


示例 S-19 有 注解 的 clip 函数 


def clip(text:str, max_len:'int > @'=80) -> str: @ 
""" 在 max_len 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 


end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', ©, max_len) 
if space before >= @: 
end = space_before 
else: 
space_after = text.rfind(' ', max_len) 
if space_after >= @: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 


O 有 注解 的 函数 声明 。 


函数 声明 中 的 各 个 参数 可 以 在 : 之 后 增加 注解 表达 式 。 如 果 参 数 有 默认 
值 ， 注 解放 在 参数 名 和 = 号 之 间 。 如 果 想 注解 返回 值 ， 在 ) 和 函数 声明 
末尾 的 : 之 间 添 加 -> 和 一 个 表达 式 。 那 个 表达 式 可 以 是 任何 类 型 。 注 
解 中 最 常用 的 类 型 是 类 (如 str I int) ME (如 int > 

6' ) 。 在 示例 5-19 中 ，max_len 参数 的 注解 用 的 是 字符 串 。 


注解 不 会 做 任何 处 理 ， 只 是 存储 在 函数 的 __annotations_ _ 属性 (一 
个 字典 ) 中 : 


>>> from clip_annot import clip 
>>> clip. annotations _ 


{'text': <class 'str'>, 'max_len': ‘int > @', ‘return': <class 'str'>} 


‘return 键 保 存 的 是 返回 值 注 解 ， 即 示例 5-19 中 函数 声明 里 以 -> 标 
记 的 部 分 。 


Python 对 注解 所 做 的 唯一 的 事情 是 ， 把 它们 存储 在 函数 的 
annotations ”属性 里 。 仅 此 而 已 ，Python 不 做 检查 、 不 做 强制 、 
不 做 验证 ， 什 么 操作 都 不 做 。 换 句 话说， 注解 对 Python 解释 器 没有 任何 
意义 。 注 解 只 是 元 数据 ， 可 以 供 IDE、 框 架 和 装饰 器 等 工具 使 用 。 写 作 
本 书 时 ， 标 准 库 中 还 没有 什么 会 用 到 这 些 元 数据 ， 唯 有 
inspect.signature() 函数 知道 怎么 提取 注解 ， 如 示例 5-20 所 示 。 


示例 5-20 ”从 函数 签名 中 提取 注解 


>>> from clip annot import clip 
>>> from inspect import signature 
>>> sig = signature(clip) 

>>> sig.return_annotation 

<class ‘str'> 


>>> for param in sig.parameters.values(): 
note = repr(param.annotation) .1ljust(13) 
he print(note, ':', param.name, '=', param.default) 
<class 'str'> : text = <class 'inspect._empty'> 
‘int > @' : max_len = 8@ 


signature 函数 返回 一 个 Signature 对 象 ， 它 有 一 个 
return_annotation 属性 和 一 个 parameters 属性 ， 后 者 是 一 个 字 
典 ， 把 参数 名 映射 到 Parameter 对 象 上 。 每 个 Parameter 对 象 自 己 也 
有 annotation 属性 。 示 例 5-20 用 到 了 这 几 个 属性 。 


FEAR, Bobo 等 框架 可 以 文 持 注解 ， 并 进一步 自动 处 理 请 求 。 例 如 ， 
使 用 price:float 注解 的 参数 可 以 自动 把 查询 字符 串 转 换 成 函数 期 符 
的 Float 类 型 ， quantity: 'int > 6' 这 样 的 字符 串 注 解 可 以 转换 成 
对 参数 的 验证 。 


函数 注解 的 最 大 影响 或 许 不 是 让 Bobo 等 框架 自动 设置 ， 而 是 为 IDE 和 
lint 程序 等 工具 中 的 静态 类 型 检查 功能 提供 额外 的 类 型 信息 。 


深入 分 析 函 数 之 后 ， 本 章 余 下 的 内 容 介 绍 标 准 库 中 为 函数 式 编 程 提供 文 
持 的 党 用 包 。 


5.10 ”支持 函数 式 编 程 的 包 


虽然 Guido 明确 表明 ，Python 的 目标 不 是 变 成 函数 式 编程 语言 ， 但 是 得 
im J operator 和 functools 等 包 的 支持 ， 函 数 式 编程 风格 也 可 以 信 
手 牛 来 。 接 下 来 的 两 节 分 别 介 绍 这 两 个 包 。 


5.10.1 operator 模 块 


在 函数 式 编程 中 ， 经 常 需 要 把 算术 运算 符 当 作 函 数 使 用 。 例 如 ， 不 使 用 
递归 计算 阶乘 。 求 和 可 以 使 用 sum 函数 ， 但 是 求 积 则 没有 这 样 的 函数 。 
我 们 可 以 使 用 reduce 函数 (5.2.1 市 是 这 么 做 的 ) ， 但 是 需要 一 个 函数 
计算 序列 中 两 个 元 素 之 积 。 示 例 5-21 展示 如 何 使 用 lambda 表达 式 解 决 


这 个 问题 。 


示例 5-21 使 用 reduce 函数 和 一 个 匿名 函数 计算 阶乘 


from functools import reduce 
def fact(n): 
return reduce(lambda a, b: a*b, range(1, n+1)) 


operator 模块 为 多 个 算术 运算 符 提 供 了 对 应 的 函数 ， 从 而 避免 编写 
lambda a, b: a*b 这 种 平凡 的 匿名 函数 。 使 用 算术 运算 符 函 数 ， 可 以 
把 示例 5-21 改写 成 示例 5-22 那样 。 


示例 5-22 使 用 reduce 和 operator .mul 函数 计算 阶乘 


from functools import reduce 
from operator import mul 


def fact(n): 
return reduce(mul, range(1, n+1)) 


operator 模块 中 还 有 一 类 函数 ， 能 蔡 代 从 序列 中 取出 元 素 或 读 取 对 象 
属性 的 lambda 表达 式 : 因此 ，itemgetter 和 attrgetter 其 实 会 自 


行 构建 函数 。 


示例 5-23 展示 了 itemgetter 的 常见 用 途 : 根据 元 组 的 某 个 字段 给 元 
组 列表 排序 。 在 这 个 示例 中 ， 按 照 国家 代码 (第 2 个 字段 ) 的 | 顺序 打印 
各 个 城市 的 信息 。 其 实 ，itemgetter(1) 的 作用 与 lambda fields: 
fields[1] 一 样 : 创建 一 个 接受 集合 的 函数 ， 返 回 索引 位 1 上 的 元 素 。 


a 5-23 ”演示 使 用 itemgetter 排序 一 个 元 组 列表 (数据 来 自 示 
列 2-8) 


>>> metro_data = [ 

(‘Tokyo', 'JP', 36.933, (35.689722, 139.691667)), 

(‘Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
(‘Mexico City’, 'MX', 20.142, (19.433333, -99.133333)), 
(‘New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
(‘Sao Paulo’, 'BR', 19.649, (-23.547778, -46.635833)), 


oa 


>>> 


>>> from operator import itemgetter 
>>> for city in sorted(metro_data, key=itemgetter(1)): 
print(city) 


(‘Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)) 
(‘Delhi NCR', 'IN', 21.935, (28.613889, 77.208889) ) 
(‘Tokyo', 'JP', 36.933, (35.689722, 139.691667)) 

(‘Mexico City', 'MX', 20.142, (19.433333, -99.133333)) 
(‘New York-Newark', 'US', 20.104, (40.808611, -74.020386)) 


en itemgetter， 它 构建 的 函数 会 返回 提取 的 值 构 成 
i: 元 组 : 


>>> cc_name = itemgetter(1，6) 
>>> for city in metro_data: 
print(cc_name(city) ) 


('JP', "Tokyo ' ) 


('IN', 'Delhi NCR') 

('MX', "Mexico City') 
('US', ‘New York-Newark' ) 
('BR', "Sao Paulo’) 

>>> 


itemgetter 使 用 [] 运算 符 ， 因 此 它 不 仅 文 持 序 列 ， 还 文 持 映射 和 任 


何 实现 ”getitem _ 方法 的 类 。 


attrgetter 与 itemgetter 作用 类 似 ， 它 创建 的 函数 根据 名 称 提取 对 
象 的 属性 。 如 果 把 多 个 属性 名 传 给 attrgetter， 它 也 会 返回 提取 的 值 
构成 的 元 组 。 此 外 ， 如 果 参 数 名 中 包含 .〈 点 号 ) attrgetter 会 深 
入 骨 套 对 象 ， 获 取 指 定 的 属性 。 这 些 行为 如 示例 5-24 所 示 。 这 个 控制 
台 会 话 不 短 ， 因 为 我 们 要 构建 一 个 符 套 结构 ， 这 样 才能 展示 
attrgetter 如 何 处 理 包 含 点 号 的 属性 名 。 


示例 5-24 定义 一 个 namedtuple， 名 为 metro_data (与 示例 5- 
23 中 的 列表 相同 ) ， 演 示 使 用 attrgetter 处 理 它 


>>> from collections import namedtuple 

>>> LatLong = namedtuple('LatLong', 'lat long') # © 

>>> Metropolis = namedtuple('Metropolis', ‘name cc pop coord') # @ 

>>> metro_areas = [Metropolis(name, cc, pop, LatLong(lat, long)) # © 

‘ for name, cc, pop, (lat, long) in metro_data] 

>>> metro areas[0] 

Metropolis(name='Tokyo', cc='JP', pop=36.933, coord=LatLong(lat=35.689722, 

long=139.691667) ) 

>>> metro_areas[@].coord.lat # @ 

35.689722 

>>> from operator import attrgetter 

>>> name_lat = attrgetter('name', 'coord.lat') # O 

>>> 

>>> for city in sorted(metro_areas, key=attrgetter('coord.lat')): # O 
print(name_lat(city)) #@ 


('Sao Paulo', -23.547778) 
(‘Mexico City’, 19.433333) 
(‘Delhi NCR', 28.613889) 
(‘Tokyo', 35.689722) 

('New York-Newark', 40.808611) 


@ 使 用 namedtuple 定义 LatLong。 
© 再 定义 Metropolis. 
© 使 用 Metropolis 实例 构建 metro_areas 列表 ; JER, REAR 


套 的 元 组 拆 包 提取 (lat，long)， 然 后 使 用 它们 构建 LatLong， 作 为 
Metropolis 的 coord 属性 。 


四 深入 metro_areas[6]， 获 取 它 的 纬度 。 

@ 定义 一 个 attrgetter， 获 取 name JE EMRE coord. lat 属性 。 
@ 再 次 使 用 attrgetter， 按 照 纬 度 排序 城市 列表 。 

O 使 用 标号 @ 中 定义 的 attrgetter， 只 显示 城市 名 和 纬度 。 


下 面 是 operator 模块 中 定义 的 部 分 函数 (省 略 了 以 _ 开头 的 名 称 ， 
为 它们 基本 上 是 实现 细节 ) : 4 


4Python 3.5 中 增加 了 imatmul 和 matmul。 一 一 编者 注 


>>> [name for name in dir(operator) if not name.startswith('_')] 
['abs', 'add', ‘and_', ‘attrgetter', ‘concat', ‘contains’, 
"countOf', ‘delitem', 'eq', ‘'floordiv', 'ge', 'getitem', 'gt', 
'iadd', ‘iand', ‘iconcat', ‘ifloordiv', ‘ilshift', ‘imod', ‘imul', 


“index', ‘indexOf', ‘inv’, ‘invert’, ‘ior’, ‘ipow', ‘irshift', 

‘is _', ‘is _not', ‘isub', ‘itemgetter', ‘itruediv', ‘ixor', 'le', 
“length_hint', ‘lshift', 'lt', 'methodcaller', 'mod', ‘mul', ‘ne’, 
"neg', 'not_', 'or_', 'pos', 'pow', ‘rshift', 'setitem', ‘sub’, 
"truediv', ‘truth', ‘xor'] 


这 52 个 名 称 中 大 部 分 的 作用 不 言 而 喻 。 以 诗 开 头 、 后 面 是 另 一 个 运算 
符 的 那些 名 称 (如 ijadd、iand 等 ) ， 对 应 的 是 增 量 赋值 运算 符 〈 如 
+=、&= 等 ) 。 如 果 第 一 个 参数 是 可 变 的 ， 那么 这 些 运 算 符 函 数 会 就 地 
修改 它 ; 和 否则， 作用 与 不 带 守 的 函数 一 样 ， 直 接 返 回 运算 结果 。 


在 operator 模块 余下 的 函数 中 ， 我 们 最 后 介 绍 一 下 methodcaller。 
它 的 作用 与 attrgetter 和 itemgetter 类 似 ， 它 会 自行 创建 函 

数 。methodcaller 创建 的 函数 会 在 对 象 上 调用 参数 指定 的 方法 ， 如 示 
例 5-25 所 示 。 


示例 5-25 methodcaller 使 用 示例 : 第 二 个 测试 展示 绑 定额 外 参 
数 的 方式 


>>> from operator import methodcaller 
>>> s = 'The time has come' 

>>> upcase = methodcaller('upper') 
>>> upcase(s) 


"THE TIME HAS COME' 

>>> hiphenate = methodcaller('replace', ' ', '-') 
>>> hiphenate(s) 

"The-time-has-come' 


示例 5-25 中 的 第 一 个 测试 只 是 为 了 展示 methodcaller 的 用 法 ， 如 果 
想 把 str.upper 作为 函数 使 用 ， 只 需 在 str 类 上 调用 ， 并 传 入 一 个 字 
符 串 参数 ， 如 下 所 示 : 


>>> str.upper(s) 
"THE TIME HAS COME' 


示例 5-25 中 的 第 二 个 测试 表明 ，methodcaller 还 可 以 冻结 某 些 参数 ， 
也 就 是 部 分 应 用 (partial application) ， 这 与 functools.partial 函数 
的 作用 类 似 。 详 情 参 见 下 一 节 。 


5.10.2 ”使 用 functools .partial 冻 结 参 数 


functools 模块 提供 了 一 系列 高 阶 函 数 ， 其 中 最 为 人 熟知 的 或 许 是 
reduce， 我 们 在 5.2.1 节 已 经 介绍 过 。 余 下 的 函数 中 ， 最 有 用 的 是 
partial 及 其 变 体 ，partialmethod。 


functools.partial 这 个 高 阶 函 数 用 于 部 分 应 用 一 个 函数 。 部 分 应 用 
是 指 ， 基 于 一 个 函数 创建 一 个 新 的 可 调用 对 象 ， 把 原 函 数 的 某 些 参数 固 
定 。 使 用 这 个 函数 可 以 把 接受 一 个 或 多 个 参数 的 函数 改编 成 需要 回调 的 
API， 这 样 参数 更 少 。 示 例 5-26 做 了 简单 的 演示 。 


示例 5-26 使 用 partial 把 一 个 两 参数 函数 改编 成 需要 单 参数 的 
可 调用 对 象 


>>> from operator import mul 
>>> from functools import partial 
>>> triple = partial(mul, 3) © 


>>> triple(7) 

21 

>>> list(map(triple, range(1, 10))) © 
[3, 6, 9, 12, 15, 18, 21, 24, 27] 


O 使 用 mul 创建 triple 函数 ， 把 第 一 个 定位 参数 定 为 3。 

O 测试 triple HA. 

© £ map 中 使 用 triple; 在 这 个 示例 中 不 能 使 用 mul. 

使 用 4.6 节 介 绍 的 unicode.normalize 函数 再 举 个 例子 ， 这 个 示例 更 
有 实际 意义 。 如 采 处 理 多 国语 言 编 写 的 文本 ， 在 比较 或 排序 之 前 可 能 会 


想 使 用 unicode.normalize('NFC', s) 处 理 所 有 字符 串 s。 如 果 经 常 
这 么 做 ， 可 以 定义 一 个 nfe 函数 ， 如 示例 5-27 所 示 。 


示例 5-27 使 用 partial 构建 一 个 便利 的 Unicode 规范 化 函数 


>>> import unicodedata, functools 

>>> nfc = functools.partial(unicodedata.normalize, 'NFC') 
>>> s1 'café' 

>>> S2 'cafe\u0301' 


>>> s1, s2 


('café', 'café') 

>>> sl == s2 

False 

>>> nfc(s1) == nfc(s2) 
True 


partial 的 第 一 个 参数 是 一 个 可 调用 对 象 ， 后 面 跟着 任意 个 要 绑 定 的 定 
位 参数 和 关键 字 参 数 。 


示例 5-28 在 示例 5-10 中 定义 的 tag 函数 上 使 用 partial， 冻 结 一 个 定 
位 参数 和 一 个 关键 字 参 数 。 


示例 5-28 把 partial 应 用 到 示例 5-10 中 定义 的 tag 函数 上 


>>> from tagger import tag 

>>> tag 

<function tag at 0x10206d1e0> ©O 

>>> from functools import partial 

>>> picture = partial(tag, ‘img', cls='pic-frame') @ 

>>> picture(src='wumpus. jpeg’ ) 

‘<img class="pic-frame" src="wumpus. jpeg" />' © 

>>> picture 

functools.partial(<function tag at @x102@6d1e@>, 'img', cls='pic-frame') @ 


>>> picture.func © 
<function tag at 0x10206d1e0> 
>>> picture.args 

('img',) 

>>> picture.keywords 

{'cls': 'pic-frame'} 


@ 从 示例 5-10 中 导入 tag 函数 ， 查 看 它 的 ID。 


© 使 用 tag 创建 picture 函数 ， 把 第 一 个 定位 参数 固定 为 "img'， 把 
cls 关键 字 参 数 固定 为 'pic-frame'。 


全 picture 的 行为 符合 预期 。 


@ partial() 返回 一 个 functools .partial WR. > 


5functools.py 的 源码 Chttps://hg.python.org/cpython/file/default/Lib/functools.py) 表 
明 ，functools.partial 类 是 使 用 C 语言 实现 的 ， 而 且 默 认 使 用 这 个 实现 。 如 果 这 个 实现 不 
可 用 ， 从 Python 3.4 起 ，functools 模块 为 partial 提供 了 纯 Python 实现 。 


加 functools.partial 对 象 提供 了 访问 原 函 数 和 固定 参数 的 属性 。 


functools.partialmethod 函数 (Python 3.4 新 增 ) 的 作用 与 
partial 一 样 ， 不 过 是 用 于 处 理 方法 的 。 


functools 模块 中 的 lru_cache 函数 令 人 印象 深刻 ， 它 会 做 备 忘 

(memoization) ， 这 是 一 种 自动 优化 措施 ， 它 会 存储 耗 时 的 函数 调用 结 
果 ， 避 免 重 新 计算 。 第 7 章 将 会 介绍 这 个 函数 ， 还 将 讨论 装饰 器 ， 以 及 
旨 在 用 作 装 饰 器 的 其 他 高 阶 函 数 : singledispatch 和 wraps。 


511 本 章 小 结 


本 章 的 目标 是 探讨 Python 函数 的 一 等 本 性 。 这 意味 着 ， 我 们 可 以 把 函数 
赋值 给 变量 、 传 给 其 他 函数 、 存 储 在 数据 结构 中 ， 以 及 访问 函数 的 属 
性 ， 供 框架 和 一 些 工具 使 用 。 高 阶 函 数 是 函数 式 编程 的 重要 组 成 部 分 ， 
即使 现在 不 像 以 前 那样 经 常 使 用 map、filter 和 reduce 函数 了 ， 但 
是 还 有 列表 推导 《以 及 类 似 的 结构 ， 如 生成 器 表达 式 ) 以 及 sum, all 
和 any 等 内 置 的 归 约 函数 。Python 中 常用 的 高 阶 函数 有 内 置 函 数 


sorted、 min、max 和 functools. partial。 


Python 有 7 种 可 调用 对 象 ， 从 Lambda 表达 式 创建 的 简单 函数 到 实现 

__Ccall _ 方法 的 类 实例 。 这 些 可 调用 对 象 都 能 通过 内 置 的 

callable() 函数 检测 。 每 一 种 可 调用 对 象 都 支持 使 用 相同 的 丰富 句法 

iA ae 包括 仅 限 关 键 字 参数 和 注解 一 一 二 者 都 是 Python 3 引入 
JT TELE o 


Python 函数 及 其 注解 有 丰富 的 属性 ， 在 inspect 模块 的 帮助 下 ， 可 以 
读 取 它们 。 例 如 ，Signature.bind 方法 使 用 灵活 的 规则 把 实 参 绑 定 到 
形 参 上 ， 这 与 Python 使 用 的 规则 一 样 。 


最 后 ， 本 章 介 绍 了 operator 模块 中 的 一 些 函 数 ， 以 及 
functools.partial 函数 ， 有 了 这 些 函 数 ， 函 数 式 编程 就 不 太 需 要 功 
能 有 限 的 lambda 表达 式 了 。 


5.12 ”延伸 阅读 


接 下 来 的 两 章 继 续 探 讨 使 用 函数 对 象 编 程 。 第 6 章 说 明 一 等 函数 如 何 简 
化 茶 些 经 典 的 面 癌 对 象 设 计 模 式 ， 第 7 BEL Pe Aea PRES 
高 阶 函 数 ) 和 支持 装饰 器 的 闭 包机 制 。 


《Python Cookbook〈 第 3 版) 中 文 版 》 (David Beazley 和 Brian K. Jones 
著 ) 的 第 7 章 是 对 本 章 和 第 7 章 很 好 的 补充 ， 那 一 章 基 本 上 使 用 不 同 的 
方式 探讨 了 相同 的 概念 。 


Python 语言 参考 手册 中 的 “3.2. The standard type hierarchy” 一 节 
Chttps://docs.python.org/3/reference/datamodel.html#the-standard-type- 
hierarchy) 对 7 种 可 调用 类 型 和 其 他 所 有 内 置 类 型 做 了 介绍 。 


本 章 讨论 的 Python 3 专 有 特性 有 各 自 的 PEP: “PEP 3102—Keyword-Only 
Arguments” (https://www.python.org/dev/peps/pep-3102/) 和 “PEP 3107— 
Function Annotations” Chttps://www.python.org/dev/peps/pep-3107/) 。 


Aa REE T fH BEAR AY (82, Stack Overflow 网 站 中 有 两 个 问答 
值得 一 读 : 一 个 是 “What are good uses for Python3's‘ Function 
Annotations’” Chttp://stackoverflow.com/questions/3038033/what-are-good- 
uses-for-python3s-function-annotations) , Raymond Hettinger 给 出 了 务实 的 
回答 和 深入 的 见解 ， 另 一 个 是 “What good are Python function 

annotations?” Chttp://stackoverflow.com/questions/13784713/what-good-are- 
python-function-annotations) ， 某 个 回答 中 大 量 引用 了 Guido van Rossum 
的 观点 。 


如 果 你 想 使 用 inspect 模块 ，“PEP 362—Function Signature 
Object” Chttps://www.python.org/dev/peps/pep-0362/) 值得 一 读 ， 可 以 帮 
助 了 解 实 现 细节 。 


A. M. Kuchling 的 文章 “Python Functional Programming 

HOWTO” (http://docs.python.org/3/howto/functional.html ) 对 Python 函数 
式 编程 做 了 很 好 的 介绍 。 不 过 ， 那 篇 文章 的 重点 是 使 用 迭代 器 和 生成 
器 ， 这 是 第 14 章 的 话题 。 


fn. py Chttps://github.com/kachayev/fn.py) 是 为 Python2 和 Python 3 提供 
函数 式 编 程 支 持 的 包 。 据 作者 Alexey Kachayev 介绍 ，fn.py 提供 了 
Python 所 缺少 的 函数 式 特性 ”。 这 个 包 提 供 的 @recur .tco 装饰 器 为 
Python 中 的 无 限 递归 实现 了 尾 调用 优化 。 此 外 ，fn.py 还 提供 了 很 多 其 
他 函数 、 数 据 结构 和 诀 罕 。 


Stack Overflow 网 站 中 的 问题 “Python: Why is functools.partial 
necessary?” Chttp://stackoverflow.com/questions/3252228/python-why-is- 
functools-partial-necessary) 有 个 详实 《而 有 趣 ) WEIS, AE Alex 
Martelli， 他 是 经 典 的 《Python 技术 手册 》 一 书 的 作者 。 


Jim Fulton 开发 的 Bobo 或 许 是 第 一 个 称 得 上 是 面 癌 对 象 的 Web 框架 。 

如 果 你 对 这 个 框架 感 兴趣 ， 想 进一步 学 习 它 最 近 的 重 写 版 本 ， 先 

从 “Tntroductionm”(http://bobo.readthedocs.io/en/latest/) 入 手 。 在 Joel 

Spolsky 的 博客 中 ，Phillip J. Eby 在 评论 中 提 到 了 Bobo 的 一 些 早 期 历史 
(http://discuss.fogcreek.com/joelonsoftware/default.asp? 

cmd=show &ixPost=94006) 。 


N 


Li% 
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关于 Bobo 


我 的 Python 编程 生涯 从 Bobo 开始 。1998 年 ， 我 在 自己 的 第 一 个 
Python Web 项 目 中 使 用 了 Bobo。 当 时 我 在 寻找 编写 Web 应 用 的 面 
问 对 象 方式 ， 尝 试 过 一 些 Perl 和 Java 框 架 之 后 ， 我 发 现 了 Bobo. 


1997 年 ，Bobo 开创 了 对 象 发 布 概念 : 直接 把 URL 映射 到 对 象 层 次 
结构 上 ， 无 需 配 置 路 由 。 看 到 这 种 做 法 的 精妙 之 处 后 ， 我 被 Bobo 
吸引 住 了 。Bobo 还 能 通过 分 析 处 理 请 求 的 方法 或 函数 的 签名 来 自 
动 处 理 HTTP 查询 。 


Bobo 由 Jim Fulton 创建 ， 他 被 人 称 为 “Zope 教 星 ”(The Zope 

Pope) ， 因 为 他 在 Zope 框架 的 开发 中 的 起 到 领衔 作用 。Zope 是 
Plone CMS、SchoolTool、ERP5 和 其 他 大 型 Python 项 目的 基础 。Jim 
还 是 ZJODB (Zope Object Database) 的 创建 者 ， 这 是 一 个 事务 型 对 
象 数 据 库 ， 提 供 了 ACID (“atomicity, consistency, isolation, and 
durability”， 原 子 性 、 一 臻 性、 隔离 性 和 耐久 性 )， 它 的 设计 目的 
是 简化 Python 的 使 用 。 


后 来 ， 为 了 支持 WSGI 和 现代 的 Python 版 本 (包括 Python3) , Jim 
从 头 重 写 了 Bobo。 写 作 本 书 时 ，Bobo 使 用 six 库 做 函数 内 省 ， 这 
是 为 了 兼容 Python 2 和 Python 3， 因 为 这 两 个 版 本 在 函数 对 象 和 相 
关 的 API 上 做 了 修改 。 


Python 是 函数 式 语 言 吗 


2000 年 左右 ， 我 在 美国 做 培训 ，Guido van Rossum 到 访 了 教室 (他 
不 是 讲师 ) 。 在 课 后 的 问答 环节 ， 有 人 问 他 Python 的 哪些 特性 是 从 
其 他 语言 借鉴 而 来 的 。 他 答 道 ; “Python 中 一 切 好 的 特性 都 是 从 其 
他 语言 中 借鉴 来 的 。” 


布 明 大 学 的 计算 机 科学 教授 Shriram Krishnamurthi 在 其 论 

文 “Teaching Programming Languages in a Post-Linnaean 

Age” Chttp://cs.brown.edu/~sk/Publications/Papers/Published/sk-teach- 
pl-post-linnaean/) 的 开头 这 样 写 道 : 


编程 语言 “范式 ”已 近 末日 ， 它 们 是 旧时 代 的 遗留 物 ， 令 人 厌 
烦 。 既 然 现代 语言 的 设计 者 对 范式 不 导 一 顾 ， 那 么 我 们 的 读 程 
为 什么 要 像 奴 隶 一 样 对 其 言 听 计 从 ? 


在 那 篇 论文 中 ， 下 面 这 一 段 点 名 提 到 了 Python: 


对 Python, Ruby 或 Perl 这 些 语 言 还 要 了 解 什 么 呢 ? 它们 的 设 
计 者 没有 耐心 去 精确 实现 林 奈 层次 结构 ， 设 计 者 按照 自己 的 总 
愿 从 别处 借鉴 特性 ， 创 建 出 完全 无 视 过 往 概 念 的 大 杂烩 。 


Krishnamurthi 指出 ， 不 要 试图 把 语言 归 为 某 一 类 ; 相反 ， 把 它们 视 
作 特 性 的 聚合 更 有 用 。 


为 Python 提供 一 等 函数 打开 了 函数 式 编程 的 大 门 ， 不 过 这 并 不 是 
Guido 的 目的 。 他 在 “Origins of Python's Functional Features” 一 文 
Chttp://python-history. blogspot.com/2009/04/origins-of-pythons- 
functional-features.html) Fit, map. filter 和 reduce 的 最 初 目 
的 是 为 Python 增加 lambda 表达 式 。 这 些 特性 都 由 Amrit Prem 页 
献 ， 添 加 在 1994 年 发 布 的 Python 1.0 中 (参见 CPython 源码 中 的 
Misc/HISTORY X 
件 ，https://hg.python.org/cpython/file/default/Misc/HISTORY) 。 


lambda, map. filter Ñi reduce 首次 出 现在 Lisp 中 ， 这 是 最 早 
的 一 门 函 数 式 语言 。 然 而 ，Lisp 没有 限制 在 lambda 表达 式 中 能 做 
什么 ， 因 为 Lisp 中 的 一 切 都 是 表达 式 。 Python 使 用 的 是 面 癌 语句 
的 句法 ， 表 达 式 中 不 能 包含 语句 ， 而 很 多 语言 结构 都 是 语句 ， 例 如 
try/catch， 我 编写 lambda 表达 式 时 最 想念 这 个 语句 。Python 为 
了 提高 句法 的 可 读 性 ， 必 须 付出 这 样 的 代价 。 SLisp 有 很 多 优点 ， 
可 读 性 一 定 不 是 其 中 之 一 。 


讽刺 的 是 ， 从 另 一 门 函 数 式 语言 (Haskell〉 中 借用 列表 推导 之 后 ， 
Python 对 map、filter， 以 及 lambda 表达 式 的 需求 极 大 地 减少 
Ts 


除了 匿名 函数 句法 上 的 限制 之 外 ， 影 响 函 数 式 编程 惯用 法 在 Python 
中 广泛 使 用 的 最 大 障碍 是 缺少 尾 递 归 消 除 (tail-recursion 
elimination) ， 这 是 一 项 优化 措施 ， 在 函数 的 定义 体 “ 来 尾 " 递 归 调 
用 ， 从 而 提高 计算 函数 的 内 存 使 用 效率 。Guido 在 另 一 篇 博客 文章 
(“Tail Recursion 
Elimination”, http://neopythonic.blogspot.com/2009/04/tail-recursion- 
elimination.html) 中 解释 了 为 什么 这 种 优化 措施 不 适合 Python。 这 
篇 文章 详细 讨论 了 技术 论证 ， 不 过 前 三 个 也 是 最 重要 的 原因 与 易 用 
EAX. Python 作为 一 门 易 于 使 用 、 学 习 和 教授 的 语言 并 非 偶然 ， 
有 Guido 在 为 我 们 把 关 。 


综 上 ， 从 设计 上 看 ， 不 管 函 数 式 语言 的 定义 如 何 ，Python 都 不 是 一 
门 函 数 式 语言 。Python 只 是 从 函数 式 语言 中 借鉴 了 一 些 好 的 想法 。 


匿名 函数 的 问题 


除了 Python 独 有 的 句法 上 的 局 限 ， 在 任何 一 门 语言 中 ， 匿 名 函数 都 
有 一 个 严重 的 缺点 : 没有 名 称 。 


我 是 半 开 玩笑 的 。 函 数 有 名 称 ， 栈 跟踪 更 易于 阅读 。 匿 名 函数 是 一 
种 便利 的 简洁 方式 ， 人 们 乐于 使 用 它们 ， 但 是 有 时 会 筷 乎 所 以 ， 尤 
其 是 在 鼓励 深层 散 套 匿名 函数 的 语言 和 环境 中 ， 如 JavaScript 和 
Node.js。 匿 名 函数 符 套 的 层级 太 深 ， 不 利于 调试 和 处 理 错误 。 
Python 中 的 异步 编程 结构 更 好 ， 或 许 就 是 因为 Lambda 表达 式 有 局 
限 。 我 保证 ， 后 面 会 进一步 讨论 异步 编程 ， 但 是 必须 等 到 第 18 
章 。 顺 便 说 一 下 ，promise 对 象 、 期 物 (future) 和 deferred WARE 


现代 异步 API 中 使 用 的 概念 。 把 它们 与 协 程 结合 起 来 ， 能 避免 掉 
入 “回调 地 狱 ”。18.5 节 会 说 明 如 何不 用 回调 来 做 异步 编程 。 


此外， 还 有 一 个 问题 ， 把 代码 粘贴 到 Web 论坛 时 ， 缩 进 会 丢失 。 当 然 ， 这 是 题 外 话 。 


第 6 章 使 用 一 等 函数 实现 设计 模 


符合 模式 并 不 表示 做 得 对 。1 


Ralph Johnson 
经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 之 一 


LH É 2014 年 11 月 15 H Ralph Johnson 在 圣保罗 大 学 IME/CCSL 所 做 的 演讲 ，“Root Cause 
Analysis of Some Faults in Design Patterns” - 


虽然 设计 模式 与 语言 无 天 ， 但 这 并 不 意味 着 每 一 个 模式 都 能 在 每 一 门 语 
言 中 使 用 。1996 年 ，Peter Norvig 在 题 为 “Design Patterns in Dynamic 
Languages”(http://norvig.conydesign-patterns/〉 的 演讲 中 指出 ，Gamma 等 
人 合 著 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 中 有 23 个 模 
式 ， 其 中 有 16 个 在 动态 语言 中 “不 见 了 ， 或 者 简化 了 ”( 参 见 第 9 张 约 
灯 片 ) 。 他 讨论 的 是 Lisp 和 Dylan， 不 过 很 多 相关 的 动态 特性 在 Python 
中 也 能 找到 。 


《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 在 引言 中 承认 ， 所 用 
的 语言 决定 了 哪些 模式 可 用 : 


程序 设计 语言 的 选择 非常 重要 ， 它 将 影响 人 们 理解 问题 的 出 发 点 。 
我 们 的 设计 模式 采用 了 Smalltalk 和 C++ 层 的 语言 特性 ， 这 个 选择 
实际 上 决定 了 哪些 机 制 可 以 方便 地 实现 ， 而 哪些 则 不 能 。 若 我 们 采 
用 过 程式 语言 ， 可 能 就 要 包括 诸如 “集成 ”封装 ”和 “多 态 ” 的 设计 模 
式 。 相 应 地 ， 一 些 特 殊 的 面向 对 象 语言 可 以 直接 支持 我 们 的 某 些 横 
和 例如 CLOS 支持 多 方法 概念 ， 这 就 减少 了 访问 者 模式 的 必要 
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具体 而 言 ，Norvig 建议 在 有 一 等 函数 的 语言 中 重新 审视 < 策略“ 命 
令 * 模 板 方法 "和 “访问 者 "模式 。 通 常 ， 我 们 可 以 把 这 些 模 式 中 涉及 的 


某 些 类 的 实例 替换 成 简单 的 函数 ， 从 而 减少 样板 代码 。 本 章 将 使 用 函数 
对 象 重 构 “策略 ”模式 ， 还 将 讨论 一 种 更 简单 的 方式 ， 用 于 简化 “命令 " 模 
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并 使 用 《设计 模式 : AY SALA TRE SE a) FSP IR AE 
典 ” 结 构 实 现 它 。 如 果 你 熟悉 这 个 经 典 模式 ， 可 以 跳 到 6.1.2 市 ， 了 解 如 
何 使 用 函数 重 构 代码 来 有 效 减 少 代 码 行 数 。 


6.1.1 经 典 的 “策略 ”模式 
图 6-1 中 的 UML 类 图 指出 了 “策略 ”模式 对 类 的 编排。 
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See) eS | eee eS 
|discount() | [discount() | [discount() _— 


~~ 


具体 策略 
图 6-1: 使 用 “策略 ”设计 模式 处 理 订单 折扣 的 UML 类 图 
I 
定义 一 系列 算法 ， 把 它们 一 一 封装 起 来 ， 并 且 使 它们 可 以 相互 蔡 
换 。 本 模式 使 得 算法 可 以 独立 于 使 用 它 的 客户 而 变化 。 


电 商 领域 有 个 功能 明显 可 以 使 用 “策略 ”模式 ， 即 根据 客户 的 属性 或 订单 
中 的 商品 计算 折扣 。 


假如 一 个 网 店 制定 了 下 述 折扣 规则 。 
。 有 1000 或 以 上 积分 的 顾客 ， 每 个 订单 享 5% 折扣 。 
。 同一 订单 中 ， 单 个 商品 的 数量 达到 20 个 或 以 上 ， 孕 10% 折扣 。 
。 订 单 中 的 不 同 商品 达到 10 个 或 以 上 ， 享 7% 折扣 。 

简单 起 见 ， 我 们 假定 一 个 订单 一 次 只 能 享用 一 个 折扣 。 


“策略 ”模式 的 UML 类 图 见 图 6-1， 其 中 涉及 下 列 内 容 。 
ER 


把 一 些 计算 委托 给 实现 不 同 算法 的 可 互 换 组 件 ， 它 提供 服务 。 在 这 
个 电 商 示例 中 ， 上 下 文 是 Order， 它 会 根据 不 同 的 算法 计算 促销 折扣 。 
策略 

实现 不 同 算法 的 组 件 共 同 的 接口 。 在 这 个 示例 中 ， 名 为 Promotion 
的 抽象 类 扮演 这 个 角色 。 
具体 策略 


“策略 ”的 具体 子 类 。fidelityPromo、BulkPromo 和 
LargeOrderPromo 是 这 里 实现 的 三 个 具体 策略 。 


示例 6-1 实现 了 图 6-1 中 的 方案 。 按 照 《设计 模式 : 可 复 用 面 癌 对 象 软 
件 的 基础 》 一 书 的 说 明 ， 具 体 策略 由 上 下 文 类 的 客户 选择 。 在 这 个 示例 
中 ， 实 例 化 订单 之 前 ， 系 统 会 以 菜 种 方式 选择 一 种 促销 折扣 策略 ， 然 后 
人 
范围 内 。 


示例 6-1 实现 Order 类 ， 支 持 插 入 式 折扣 策略 


from abc import ABC, abstractmethod 
from collections import namedtuple 


Customer = namedtuple('Customer', ‘name fidelity’) 


class LinelItem: 


def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # EFX 


def _ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '_ total ' ) : 
self. total = sum(item.total() for item in self.cart) 
return self. total 


def due(self): 
if self.promotion is None: 
discount = @ 
else: 
discount = self.promotion.discount(self) 
return self.total() - discount 


def _repr_ (self): 
fmt = '<Order total: {:.2f} due: {:.2f}>' 
return fmt.format(self.total(), self.due()) 


class Promotion(ABC) : # 策略 : 抽象 基 类 


@abstractmethod 
def discount(self, order): 


""" 返 回 折扣 金额 ( 正 值 )》""" 


class FidelityPromo(Promotion): # 第 一 个 具体 策略 
""" 为 积分 为 .6866 或 以 上 的 顾客 提供 5% 折 扣 """ 


def discount(self, order): 
return order.total() * .65 if order.customer.fidelity >= 1000 else 0 


class BulkItemPromo(Promotion): # 第 二 个 具体 策略 
""" 单 个 商品 为 26 个 或 以 上 时 提供 16% 折 扣 """ 


def discount(self, order): 
discount = 6 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


class LargeOrderPromo(Promotion): # 第 三 个 具体 策略 
"" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 


def discount(self, order): 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .67 
return @ 


注意 ， 在 示例 6-1 中 ， 我 把 Promotion 定义 为 抽象 基 类 (Abstract Base 
Class, ABC) ， 这 么 做 是 为 了 使 用 @abstractmethod 装饰 器 ， 从 而 明 
确 表明 所 用 的 模式 。 


~ TE Python 3.4 中 ， 声 明 抽 象 基 类 最 简单 的 方式 是 子 类 化 

abc.ABC。 我 在 示例 6-1 中 就 是 这 么 做 的 。 从 Python 3.0 到 Python 
3， 必 须 在 class 语句 中 使 用 metaclass= $z 

ùH, class Promotion(metaclass=ABCMeta):) 。 


ae 是 一 些 doctest， 在 某 个 实现 了 上 述 规则 的 模块 中 演示 和 验证 相 
关 操作 。 


示例 6-2 使 用 不 同 促销 折扣 的 Order 类 示例 


>>> joe = Customer('John Doe', 0) © 
>>> ann = Customer('Ann Smith', 1100) 
>>> cart = [LineItem('banana', 4, .5), O 
LineItem('apple', 10, 1.5), 
: LineItem('watermellon', 5, 5.0)] 
>>> Order(joe, cart, FidelityPromo()) © 
<Order total: 42.00 due: 42.0Q@> 
>>> Order(ann, cart, FidelityPromo()) @ 
<Order total: 42.00 due: 39.90> 
>>> banana_cart = [LineItem('banana', 30, .5), O 
LineItem('apple', 10, 1.5)] 
>>> s ORR, banana_cart, BulkItemPromo()) © 
<Order total: 30.00 due: 28.50> 
>>> long_order = [LineItem(str(item_code), 1, 1.0) @ 
for item_code in range(1@) ] 
>>> order Gide: long order, LargeOrderPromo()) © 


<Order total: 10.00 due: 9.30> 
>>> Order(joe, cart, LargeOrderPromo()) 
<Order total: 42.00 due: 42.0@> 


@ 两 个 顾客 : joe 的 积分 是 0，ann 的 积分 是 1100. 

O 有 三 个 商品 的 购物 车 。 

© fidelityPromo 没 给 joe 提供 折扣 。 

© ann 得 到 了 5% 折扣 ， 因 为 她 的 积分 超过 1000. 

@ banana_cart 中 有 30 把 香花 和 10 个 苹果 。 

@ BulkItemPromo 为 joe 购买 的 香蕉 优惠 了 1.50 美元 。 

@ long_order 中 有 10 个 不 同 的 商品 ， 每 个 商品 的 价格 为 1.00 美元 。 
@ LargerOrderPromo 为 joe 的 整个 订单 提供 了 7% 折扣 。 


示例 6-1 完全 可 用 ， 但 是 利用 Python 中 作为 对 象 的 函数 ， 可 以 使 用 更 少 
的 代码 实现 相同 的 功能 。 详 情 参 见 下 一 市 。 


6.1.2 使 用 函数 实现 “策略 ”模式 


在 示例 6-1 中 ， 每 个 具体 策略 都 是 一 个 类 ， 而 且 都 只 定义 了 一 个 方法 ， 
即 discount。 上 此外， 策略 实例 没有 状态 《〈 没 有 实例 属性 ) 。 你 可 能 会 
说 ， 它 们 看 起 来 像 是 普通 的 函数 一 一 的 确 如 此 。 示 例 6-3 是 对 示例 6-1 
的 重 构 ， 把 具体 策略 换 成 了 简单 的 函数 ， 而 且 去 掉 了 Promo 抽象 类 。 


示例 6-3 Order 类 和 使 用 函数 实现 的 折扣 策略 


from collections import namedtuple 


Customer = namedtuple('Customer', ‘name fidelity’) 


class LineItem: 


def _ init__(self, product, quantity, price): 


self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # EFX 


def _ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, ‘  total'): 
self. total = sum(item.total() for item in self.cart) 
return self. total 


def due(self): 
if self.promotion is None: 
discount = @ 
else: 
discount = self.promotion(self) @ 
return self.total() - discount 


def _repr_ (self): 
fmt = '<Order total: {:.2f} due: {:.2f}>' 
return fmt.format(self.total(), self.due()) 


def fidelity_promo(order): © 
""" 为 积分 为 1688 或 以 上 的 顾客 提供 5% 折 扣 """ 
return order.total() * .65 if order.customer.fidelity >= 1000 else 0 


def bulk_item_promo(order): 
""" 单 个 商品 为 28 个 或 以 上 时 提供 18% 折 扣 """ 
discount = 6 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


def large _order_promo(order): 


"" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 
distinct items = {item.product for item in order.cart} 
if len(distinct items) >= 10: 

return order.total() * .07 
return @ 


@ 计算 折扣 只 需 调用 self.promotion() 函数 。 
(2 没有 抽象 类 。 
O 各 个 策略 都 是 函数 。 


示例 6-3 中 的 代码 比 示例 6-1 少 12 行 。 不 仅 如 些 ， 新 的 Order 类 使 用 
起 来 更 简单 ， 如 示例 6-4 中 的 doctest 所 示 。 


示例 6-4 使 用 函数 实现 的 促销 折扣 的 Order 类 示例 


>>> joe = Customer('John Doe', 0) © 

>>> ann = Customer('Ann Smith', 1100) 

>>> cart = [LineItem('banana', 4, .5), 
LineItem('apple', 10, 1.5), 

: LineItem('watermellon', 5, 5.0)] 
>>> Order(joe, cart, fidelity promo) @ 
<Order total: 42.00 due: 42.0@> 
>>> Order(ann, cart, fidelity_promo) 
<Order total: 42.00 due: 39.90> 


>>> banana_cart = [LineItem('banana', 30, .5), 

LineItem('apple', 10, 1.5)] 
>>> re banana cart, bulk_item_promo) © 
<Order total: 30.00 due: 28.50> 


>>> long order = [LineItem(str(item_code), 1, 1.0) 
for item_code in range(1@) ] 

>>> sordas; long_order, large_order_promo) 

<Order total: 10.00 due: 9.30> 

>>> Order(joe, cart, large_order_promo) 

<Order total: 42.00 due: 42.00> 


O 与 示例 6-1 一 样 的 测试 固件 。 


O 为 了 把 折扣 策略 应 用 到 Order 实例 上 ， 只 需 把 促销 函数 作为 参数 传 
ee 


O 这 个 测试 和 下 一 个 测试 使 用 不 同 的 促销 函数 。 


注意 示例 6-4 中 的 标注 : 没 必要 在 新 建 订 单 时 实例 化 新 的 促销 对 象 ， 函 
数 拿 来 即 用 。 


值得 注意 的 是 ，《 设 计 模 式 : 可 复 用 面 癌 对 象 软件 的 基础 》 一 书 的 作者 
提出: “策略 对 象 通常 是 很 好 的 享 元 Cflyweight) . ”3 那 本 书 的 另 一 部 

分 对 “ 享 元 ”下 了 定义 :“ 享 元 是 可 共 至 的 对 象 ， 可 以 同时 在 多 个 上 下 文 

中 使 用 。”” 共享 是 推荐 的 做 法 ， 这 样 不 必 在 每 个 新 的 上 下 文 〈 这 里 是 

Order 实例 ) 中 使 用 相同 的 策略 时 不 断 新 建 具体 集 略 对 象 ， 从 而 减少 消 
耗 。 因 此 ， 为 了 避免 "策略 ”模式 的 一 个 缺点 〈 运 行 时 消耗 ) ，《 设 计 模 
式 : 可 复 用 面 癌 对 象 软件 的 基础 》 的 作者 建议 再 使 用 另 一 个 模式 。 但 此 
时 ， 代 码 行 数 和 维护 成 本 会 不 断 攀 升 。 


3 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 214 页 。 


“《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 第 129 页 。 


在 复杂 的 情况 下 ， 需 要 具体 策略 维护 内 部 状态 时 ， 可 能 需要 把 “ 策 

略 ” 和 "“ 享 元 ”模式 结合 起 来 。 但 是 ， 有 具体 策略 一 般 疫 有 内 部 状态 ， 只 是 
处 理 上 下 文中 的 数据 。 此 时 ， 一 定 要 使 用 普通 的 函数 ， 别 去 编写 只 有 一 
个 方法 的 类 ， 再 去 实现 为 一 个 类 声明 的 单 函数 接口 。 函 数 比 用 户 定义 的 
类 的 实例 轻 量 ， 而 且 无 需 使 用 " 孚 元 ”模式 ， 因 为 各 个 策略 函数 在 Python 
编译 模块 时 只 会 创建 一 次 。 普 通 的 函数 也 是 “可 共享 的 对 象 ， 可 以 同时 
ETE POs 


至 此 ， 我 们 使 用 函数 实现 了 “策略 ?模式 ， 由 此 也 出 现 了 其 他 可 能 性 。 假 
设 我 们 想 创 建 一 个 “元 策略 ”， 让 和 它 为 指定 的 订单 选择 最 佳 折 扣 。 接 下 来 
利用 函数 和 模块 是 对 象 ， 使 用 不 同 的 方式 实现 这 个 
需求 。 


6.1.3 idem FETA: 简单 的 方式 


我 们 继续 使 用 示例 6-4 中 的 顾客 和 购物 车 ， 在 此 基础 上 添加 3 个 测试 ， 
如 示例 6-5 所 示 。 


示例 6-5 best_promo 函数 计算 所 有 折扣 ， 并 返回 额度 最 大 的 


>>> Order(joe, long order, best promo) © 
<Order total: 10.00 due: 9.3@> 
>>> Order(joe, banana_cart, best_promo) @ 


<Order total: 30.00 due: 28.5@> 
>>> Order(ann, cart, best_promo) © 
<Order total: 42.00 due: 39.9@> 


@ best_promo 为 顾客 joe 选择 larger_order_promo. 
O 订购 大 量 香蕉 时 ，joe 使 用 bulk_item_promo 提供 的 折扣 。 


O 在 一 个 简单 的 购物 车 中 ，best_promo 为 忠实 顾客 ann 提供 
fidelity_promo 优惠 的 折扣 。 


best_promo 函数 的 实现 特别 简单 ， 如 示例 6-6 所 示 。 


示例 6- best_promo 和 迭代 一 个 函数 列表 ， 并 找 出 折扣 额度 最 大 


promos = [fidelity_promo, bulk_item_promo, large order promo] © 


def best _promo(order): @ 
ae PE AY FA A see ET FO 


return max(promo(order) for promo in promos) © 


@ promos 列 出 以 函数 实现 的 各 个 策略 。 


四 与 其 他 几 个 *_promo 函数 一 样 ，best_promo 函数 的 参数 是 一 个 
Order 实例 。 


O 使 用 生成 器 表达 式 把 order 传 给 promos 列表 中 的 各 个 函数 ， 返 回 
折扣 额度 最 大 的 那个 函数 。 


示例 6-6 简单 明了 ，promos 是 水 数列 表 。 习 惯 函数 是 一 等 对 象 后 ， 自 
然而 然 就 会 构建 那 种 数据 结构 存储 函数 。 


虽然 示例 6-6 可 用 ， 而 且 易 于 阅读 ， 但 是 有 些 重 复 可 能 会 导致 不 易 侍 党 
的 缺陷 : 知 想 添加 新 的 促销 策略 ， 要 定义 相应 的 函数 ， 还 要 记得 把 它 添 


加 到 promos 列表 中 ;否则 ， 当 新 促销 函数 显 式 地 作为 参数 传 给 Order 
时 ， 它 是 可 用 的 ， 但 是 best_promo 不 会 考虑 它 。 


继续 往 下 读 ， 了 解 这 个 问题 的 几 种 解决 方案 。 
6.1.4 找 出 模块 中 的 全 部 策略 


在 Python 中 ， 模 块 也 是 一 等 对 象 ， 而 且 标 准 库 提供 了 几 个 处 理 模块 的 函 
数 。Python 文档 是 这 样 说 明 内 置 函 数 globals 的 。 


globals() 

返回 一 个 字典 ， 表 示 当 前 的 全 局 符号 表 。 这 个 符号 表 始 终 针 对 当前 
模块 《对 函数 或 方法 来 说 ， 是 指定 义 它 们 的 模块 ， 而 不 是 调用 它们 的 模 
HR) 


示例 6-7 使 用 globals 函数 帮助 best_promo 自动 找到 其 他 可 用 的 
*_promo 函数 ， 过 程 有 点 曲折 。 


示例 6-7 内 省 模块 的 全 局 命名 空间 ， 构 建 promos 列表 


promos = [globals()[name] for name in globals() © 
if name.endswith('_promo') @ 
and name != 'best_promo' ] © 


def best_promo(order): 


""" 选 择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) @ 


QAR globals() 返回 字典 中 的 各 个 name. 
四 只 选择 以 _promo 结尾 的 名 称 。 

© 过 滤 掉 best_promo 自身 ， 防 止 无 限 递 归 。 
@ best_promo 内 部 的 代码 没有 变化 。 


收集 所 有 可 用 促销 的 另 一 种 方法 是 ， 在 一 个 单独 的 模块 中 保存 所 有 策略 
函数 ， 把 best_promo 排除 在 外 。 


在 示例 6-8 中 ， 最 大 的 变化 是 内 省 名 为 promotions 的 独立 模块 ， 构 建 
策略 函数 列表 。 注 意 ， 示 例 6-8 要 导入 promotions 模块 ， 以 及 提供 高 
阶 内 省 函数 的 inspect 模块 《简单 起 见 ， 这 里 没有 给 出 导入 语句 ， 
为 导入 语句 一 般 放 在 文件 项 部 ) 。 

示例 6-8 ”内 省 单独 的 promotions 模块 ， 构 建 promos 列表 


promos = [func for name, func in 
inspect.getmembers(promotions, inspect.isfunction) ] 


def best_promo(order): 


"" "选择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) 


inspect.getmembers pA 20H TRO Ae CK HE promotions 模块 ) 
的 属性 ， 第 二 个 参数 是 可 选 的 判断 条 件 一 个 布尔 值 函 数 〉) 。 我 们 使 用 
的 是 inspect.isfunction， 只 获取 模块 中 的 函数 。 


不 管 怎 么 命名 策略 函数 ， 示 例 6-8 都 可 用 ;唯一 重要 的 

是 ，promotions 模块 只 能 包含 计算 订单 折扣 的 函数 。 当 然 ， 这 是 对 代 
码 的 隐 性 假设 。 如 果 有 人 在 promotions 模块 中 使 用 不 同 的 签名 定义 函 
数 ， 那 么 best_promo 函数 党 试 将 其 应 用 到 订单 上 时 会 出 错 。 


我 们 可 以 添加 更 为 严格 的 测试 ， 审 查 传 给 实例 的 参数 ， 进 一 步 过渡 函 
oa 示例 6-8 的 目的 不 是 提供 完善 的 方案 ， 而 是 强调 模块 内 省 的 一 种 用 


动态 收集 促销 折扣 函数 更 为 显 式 的 一 种 方案 是 使 用 简单 的 装饰 器 。 第 7 
章 讨论 函数 装饰 器 时 会 使 用 其 他 方式 实现 这 个 电 商 "策略 ”模式 示例 。 

下 一 贡 讨 论 “ 命 令 ?” 便 式 。 这 个 设计 模式 也 币 使 用 单方 法 类 实现 ， 同 样 也 
可 以 换 成 普通 的 函数 。 


6.2 “命令 ”模式 


“命令 ”设计 模式 也 可 以 通过 把 函数 作为 参数 传递 而 简化 。 这 一 模式 对 类 
的 编排 如 图 6-2 所 示 。 


wo 


| 


图 6-2: 菜单 驱动 的 文本 编辑 器 的 UML 类 图 ， 使 用 “命令 ”设计 模式 
实现 。 各 个 命令 可 以 有 不 同 的 接收 者 (实现 操作 的 对 象 )。 对 
PasteCommand 来 说 ， 接 收 者 是 Document. Xf OpenCommand 来 说 ， 
接收 者 是 应 用 程序 


“命令 ”模式 的 目的 是 解 耦 调用 操作 的 对 象 〈 调 用 者 ) 和 提供 实现 的 对 象 

(接收 者 ) 。 在 《设计 模式 : 可 复 用 面 癌 对 象 软件 的 基础 》 所 举 的 示例 

ee 而 接收 者 是 被 编辑 的 文档 或 应 
EP : 


这 个 模式 的 做 法 是 ， 在 二 者 之 间 放 一 个 Command 对 象 ， 让 它 实 现 只 有 


一 个 方法 (execute) 的 接口 ， 调 用 接收 者 中 的 方法 执行 所 需 的 操作 。 
这 样 ， 调 用 者 无 需 了 解 接收 者 的 接口 ， 而 且 不 同 的 接收 者 可 以 适应 不 同 


| 
/\ 


OpenCommand 
| 


的 Command 子 类 。 调 用 者 有 一 个 具体 的 命令 ， 通 过 调用 execute 方法 
执行 。 注 意 ， 图 6-2 中 的 MacroCommand 可 能 保存 一 系列 命令 ， 它 的 
execute() 方法 会 在 各 个 命令 上 调用 相同 的 方法 。 


Gamma 等 人 说 过 : “命令 模式 是 回调 机 制 的 面 癌 对 象 莹 代 品 。” 问 题 是 ， 
我 们 需要 回调 机 制 的 面向 对 象 蔡 代 品 吗 ? 有 时 确实 需要 ， 但 并 非 始 终 需 
Lo 


我 们 可 以 不 为 调用 者 提供 一 个 Command 实例 ， 而 是 给 它 一 个 函数 。 此 
时 ， 调 用 者 不 用 调用 command .execute()， 直 接 调 用 command() 即 
FY. MacroCommand 可 以 实现 成 定义 了 __call _ 方法 的 类 。 这 

样 ，MacroCommand 的 实例 就 是 可 调用 对 象 ， 各 自 维 护 着 一 个 函数 列 
表 ， 供 以 后 调用 ， 如 示例 6-9 所 示 。 


示例 6-9 MacroCommand 的 各 个 实例 都 在 内 部 存储 着 命令 列表 


class MacroCommand: 
""" 一 个 执行 一 组 命令 的 


def _init (self, commands): 
self.commands = list(commands) # @ 


def _call (self): 
for command in self.commands: # @ 
command() 


@ 使 用 commands 参数 构建 一 个 列表 ， 这 样 能 确保 参数 是 可 和 迭代 对 象 ， 
还 能 在 各 个 MacroCommand 实例 中 保存 各 个 命令 引用 的 副本 。 


© 调用 MacroCommand 实例 时 ，self.commands 中 的 各 个 命令 依 序 执 


复杂 的 “命令 ”模式 〈 如 文 持 撤 销 操 作 ) 可 能 需要 更 多 ， 而 不 仅 是 简单 的 
回调 函数 。 即 便 如 此 ， 也 可 以 考虑 使 用 Python 提供 的 几 个 蔡 代 品 。 


。 像 示例 6-9 中 MacroCommand 那样 的 可 调用 实例 ， 可 以 保存 任何 所 
需 的 状态 ， 而 且 除 了 call 之 外 还 可 以 提供 其 他 方法 。 


。 可 以 使 用 朵 包 在 调用 之 间 保 存 函 数 的 内 部 状态 。 


使 用 一 等 函数 对 “命令 ”模式 的 重新 审视 到 此 结束 。 站 在 一 定 高 度 上 看 ， 
这 里 采用 的 方式 与 “策略 ”模式 所 用 的 类 似 : 把 实现 单方 法 接口 的 类 的 实 
例 替 换 成 可 调用 对 象 。 毕 竟 ， 每 个 Python 可 调用 对 象 都 实现 了 单方 法 接 
Els, 24 ie 2 Call. .8 


6.3 Am) 


经 典 的 《设计 模式 : FSAI RE Ea) BALE Je 
Peter Norvig 指出 ,，“ 在 Lisp 或 Dylan 中 ，23 个 设计 模式 中 有 16 个 的 实 
现 方式 比 C++ 中 更 简单 ， 而 且 能 保持 同等 质量 ， 人 至少 各 个 模式 的 某 些 
用 途 如 此 ”(Norvig 的 “Design Patterns in Dynamic Languages” 演 讲 ， 第 9 
GRAIL] Fr, http://www.norvig.com/design-patterns/index.htm) 。Python 有 
oe Lisp 和 Dylan FF, JERE ASI — A eT 10 WY 


本 章 开 头 引用 的 那 句 话 是 Ralph Johnson 在 纪念 《设计 模式 : 可 复 用 面 
问 对 象 软件 的 基础 》 原 书 出 版 20 周年 的 活动 上 所 说 的 ， 他 指出 这 本 书 
的 缺点 之 一 是 :“ 过 多 强调 设计 模式 的 结果 ， 而 没有 细 说 过 程 。” 本 章 
从 “策略 "模式 开始 ， 使 用 一 每 函数 简化 了 实现 方式 。 


5 与 本 章 开头 引用 的 那 句 话 同 出 一 处 :2014 年 11 月 15 日 Johnson 在 IME-USP 所 做 的 演 


iF, “Root Cause Analysis of Some Faults in Design Patterns”. 


很 多 情况 下 ， 在 Python 中 使 用 函数 或 可 调用 对 象 实现 回调 更 自然 ， 这 比 
模仿 Gamma. Helm, Johnson fll Vlissides 在 书 中 所 述 的 “策略 ?或 “ 命 

令 ” 模 式 要 好 。 本 半 对 “策略 "模式 的 重 构 和 对 “命令 ”模式 的 讨论 是 为 了 
通过 示例 说 明 一 个 更 为 常见 的 做 法 : 有 时 ， 设 计 模 式 或 API 要 求 组 件 实 
现 单方 法 接口 ， 而 那个 方法 的 名 称 很 宽泛 ， 例 

如 “execute”run” 或 “doIt*。 在 Python 中 ， 这 些 模式 或 API 通常 可 以 使 用 
一 等 函数 或 其 他 可 调用 的 对 象 实现 ， 从 而 减少 样板 代码 。 


Peter Norvig 那 次 设计 模式 演讲 想 表 达 的 观点 是 , “命令 "和 “策略 ”模式 
(以 及 “模板 方法 ”和 “访问 者 ”模式 ) 可 以 使 用 一 等 函数 实现 ， 这 样 更 简 
单 ， 甚 至 “不 见 了 ”， 至 少 对 这 些 模式 的 茶 些 用 途 来 说 是 如 此 。 


6.4 延伸 阅读 


结束 对 “策略 ? 模 陈 的 讨论 时 ， 我 建议 使 用 函数 装饰 器 改进 示例 6-8。 本 
BIAS KER SAA. Rie es 7 章 的 话题 。 那 一 章 首 先 重 构 
本 章 的 电 丙 示例 ， 使 用 装饰 器 注册 可 用 的 促销 方式 。 


《Python Cookbook (28 3 fi) H#3chk) (David Beazley 和 Brian K. Jones 
i) 的 “8.21 实现 访问 者 模式 ”使 用 优雅 的 方式 实现 了 “访问 者 ”模式 ， 其 
中 的 NodeVisitor 类 把 方法 当 作 一 等 对 象 处 理 。 


在 设计 模式 方面 ，Python 程序 员 的 阅读 选择 没有 其 他 语言 多 。 


据 我 所 知 ， 截 至 2014 年 6 月 ，Learning Python Design 

Patterns (Gennadiy Zlobin #, Packt 出 版 社 ) 是 唯一 一 本 专门 针对 
Python 设计 模式 的 书 。 不 过 Zlobin 这 本 书 特别 薄 (100 页 ) ， 只 涵盖 了 
23 种 设计 模式 中 的 8 种 。 


(Python 高 级 编程 》〈Tarek Ziadé 著 ) 是 市 面 上 最 好 的 Python 中 级 书 ， 
第 14 章 “ 有 用 的 设计 模式 ”从 Python 程序 员 的 视角 介绍 了 7 种 经 典 模 
Bus 


Alex Martelli 做 过 几 次 关于 Python 设计 模式 的 演讲 。 他 在 EuroPython 
2011 上 的 演讲 有 视频 (http://pyvideo.org/europython-2011/python-design- 
patterns.html) ， 他 的 个 人 网 站 中 有 一 些 约 灯 搬 

(http://www.aleax.it/gdd_pydp.pdf) 。 这 些 年 ， 我 找到 了 不 同 的 幻灯 片 
和 视频 ， 长 短 不 一 ， 因 此 要 仔细 搜索 他 的 名 字 和 “Python Design 
Patterns” 这 些 词 。 


2008 年 左右 ，《Java 编程 思想 》 的 作者 Bruce Eckel 开始 写 一 本 题 为 
Python 3 Patterns, Recipes and Idioms 的 书 
Chttp://www.mindviewinc.com/Books/Python3Patterns/Index.php) 。 这 本 
书 有 很 多 贡献 者 ， 领 次 人 是 Eckel， 但 是 六 年 过 去 了 ， 依 然 没 有 写 完 ， 
看 样子 是 流产 了 (写作 本 书 时 ， 仓 库 的 最 后 一 次 改动 是 在 两 年 前 6) 。 


6 至 本 书 中 文 版 出 版 时 ， 仓 库 的 最 后 一 次 改动 是 在 2015 年 8 月 4 日 。 编者 注 


用 Java 写 的 设计 模式 书 很 多 ， 其 中 我 最 喜欢 的 一 本 是 《Head First 设计 
模式 》 (Eric Freeman, Bert Bates. Kathy Sierra 和 Elisabeth Robson 
著 ) 。 这 本 书 讲解 了 23 个 经 典 模式 中 的 16 个 。 如 采 你 喜欢 Head First 
系列 丛书 的 古怪 风格 ， 而 且 想 了 解 这 个 主题 ， 你 会 喜欢 这 本 书 的 。 不 
过 ， 它 是 围绕 Java 讲解 的 。 


如 采 想 换个 新 鲜 的 角度 ， 从 文 持 鸭子 类 型 和 一 等 国 数 的 动态 语言 入 手 ， 

(Ruby 设计 模式 》 (Russ Olsen 3%) 一 书 有 很 多 见解 也 适用 于 Python. 
虽然 Python 和 Ruby 在 句法 上 有 很 多 区 别 ， 但 是 二 者 在 语义 方面 很 接 
近 ， 比 Java 或 C++ 接近 。 


在 “Design Patterns in Dynamic Languages” (http://norvig.com/design- 
patterns/〉 这 一 演讲 中 ，Peter Norvig 展示 了 如 何 使 用 一 等 函数 (和 其 他 
动态 特性 ) 简化 几 个 经 典 的 设计 模式 ， 或 者 根本 不 需要 使 用 设计 模式 。 


当然 ， 如 果 你 想 认 真 研究 这 个 话题 ，Gamma 等 人 写 的 《设计 模式 : 可 
复 用 面 癌 对 象 软件 的 基础 》 一 书 是 必 读 的 。 光 是 “引言 ?就 值 回 书 钱 了 。 
人 们 经 第 引用 这 本 书 中 的 两 个 设计 原则 : “对 接口 编程 ， 而 不 是 对 实现 
编程 "和 “优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ”。 


杂谈 


Python 拥有 一 等 函数 和 一 等 类 型 ，Norvig 声称 ， 这 些 特性 对 23 个 
模式 中 的 16 个 有 影响 (“Design Patterns in Dynamic Languages”, ff 
10 5K2)4) Fr, http://norvig.com/design-patterns/) 。 读 到 下 一 章 你 会 
RIL, Python LAIZ KÉ (7.8.2 节 ) 。 泛 函数 与 CLOS 中 的 多 方法 
(multimethod) 类似，Gamma 等 人 建议 使 用 多 方法 以 一 种 简单 的 方 
式 实现 经 典 的 “访问 者 ”模式 。Norvig 却说 ， 多 方法 能 简化 “生成 
ar” (Builder) 模式 《第 10 张 约 灯 户 ) 。 可 见 ， 设 计 模 式 与 语言 特 
性 无 法 精确 对 应 。 


世界 各 地 的 课堂 经 常 使 用 Java 示例 讲解 设计 模式 。 我 不 止 一 次 听 
学 生 说 过 ， 他 们 以 为 设计 模式 在 任何 语言 中 都 有 用 。 事 实证 明 ， 在 
Gamma 等 人 合 著 的 那 本 书 中 ， 尽 管 大 部 分 使 用 C++ 代码 说 明 CD 
数 使 用 Smalltalk) ， 但 是 23 个 “经 典 的 ”设计 模式 都 能 很 好 地 在 “经 
典 的 "Java 中 运用 。 然 而 ， 这 并 不 意味 着 所 有 模式 都 能 一 成 不 变 地 
在 任何 语言 中 运用 。 那 本 书 的 作者 在 开头 就 明确 表明 了 , “一些 特 
殊 的 面 同 对 象 语言 可 以 直接 支持 我 们 的 某 些 模式 ”( 完 整 的 引用 见 


KAFR) 。 


与 Java, C+ 或 Ruby 相 比 ，Python 设计 模式 方面 的 书籍 都 很 注 。 
延伸 阅读 中 提 到 的 Learning Python Design Patterns (Gennadiy 
Zlobin 4) 在 2013 年 11 月 才 出 版 。 而 《Ruby 设计 模式 》 (Russ 
Olsen #) 在 2007 年 就 出 版 了 ， 而 且 有 384 页 ， 比 Zlobin 的 那 本 书 
多 出 284 页 。 


如 今 ，Python 在 学 术 界 越 来 越 流 行 ， 希 望 以 后 会 有 更 多 以 这 门 语言 
讲解 设计 模式 的 书籍 。 此 外 ，Java 8 引入 了 方法 引用 和 匿名 函数 ， 
这 些 广 受 期 盼 的 特性 有 可 能 为 Java 催生 新 的 模式 实现 方式 一 一 要 
语言 会 进化 ， 因 此 运用 经 典 设计 模式 的 方式 必定 要 随 之 进 


第 7 章 PR BUR ili ae A A) 


有 很 多 人 抱怨 ， 把 这 个 特性 命名 为 “装饰 器 ”不 好 。 主 要 原因 是 ， 这 
个 名 称 与 GoF 书 工 使 用 的 不 一 致 。 装 饰 器 这 个 名 称 可 能 更 适合 在 
编译 器 领域 使 用 ， 因 为 它 会 遍历 并 注解 句法 树 。 


一 一 PEP318 — Decorators for Functions and Methods” 


"48 1995 年 出 版 的 英文 原版 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》， 作 者 是 四 个 人 ， 人 们 
称 之 为 “四 人 组 ”(Gang of Four) 。 


函数 装饰 右 用 于 在 源码 中 “标记 ”函数 ， 以 某 种 方式 增强 函数 的 行为 。 这 
是 一 项 强大 的 功能 ， 但 是 徊 想 和 掌握， 必须 理解 财 包 。 
nonlocal 是 新 近 出 现 的 保留 关键 字 ， 在 Python 3.0 中 引入 。 作 为 Python 
程序 员 ， 如 果 严 格 遵守 基于 类 的 面 癌 对 象 编 程 方式 ， 即 便 不 知道 这 个 关 
键 字 也 不 会 受到 影响 。 然 而 ， 如 果 你 想 自 己 实现 函数 装饰 器 ， 那 就 必须 
了 解 财 包 的 方方面面 ， 因 此 也 束 需 要 知道 nonlocal. 


0 
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本 章 的 最 终 目标 是 解释 清楚 函数 装饰 器 的 工作 原理 ， 包 括 最 简单 的 注册 
装饰 器 和 较 复 杂 的 参数 化 装饰 器 。 但 是 ， 在 实现 这 一 目标 之 前 ， 我 们 要 
讨论 下 述 话题 : 

。 Python 如 何 计 算 装 饰 器 句法 

e Python 如 何 判断 变量 是 不 是 局 部 的 

。 闭 包 存 在 的 原因 和 工作 原理 

e nonlocal 能 解决 什么 问题 


掌握 这 些 基 础 知识 后 ， 我 们 可 以 进一步 探讨 装饰 喜 : 


。 SCHMITT A BUS AY iti at 
。 bt EA H ee iti at 
。 SULTS BCR Mi at 
BIRD Ed ae Tia SERA, PAS EE A H 4 ih el 


7.1 ee Ui as 2 A AN VA 

装饰 器 是 可 调用 的 对 象 ， 其 参数 是 另 一 个 函数 〔 被 装饰 的 函数 ) 。? 装 
饰 器 可 能 会 处 理 被 装饰 的 函数 ， 然 后 把 它 返 回 ， 或 者 将 其 共 换 成 另 一 个 
函数 或 可 调用 对 象 。 


*Python 也 支持 类 装饰 器 ， 参 见 第 21 章 。 


假如 有 个 名 为 decorate 的 装饰 器 : 


@decorate 
def target(): 


print('running target()') 


上 述 代 码 的 效果 与 下 述 写 法 一 样 : 


def target() : 
print('running target()') 


target = decorate(target) 


两 种 写法 的 最 终结 果 一 样 : 上 述 两 个 代码 片段 执行 完毕 后 得 到 的 
target 不 一 定 是 原来 那个 target 函数 ， 而 是 decorate(target) ik 
回 的 函数 。 

为 了 确认 被 装饰 的 函数 会 被 蔡 换 ， 请 看 示例 7-1 中 的 控制 台 会 话 。 


示例 7-1 Fee Vi aed AY IE R BL RF BB 


>>> def deco(func): 
def inner(): 
print( ‘running inner()') 
return inner © 


>>> @deco 
. def target(): @ 


print('running target()') 


>>> target() © 

running inner() 

>>> target @ 

<function deco.<locals>.inner at @x10@63b598> 


@ deco 返回 inner 函数 对 象 。 

© 使 用 deco 装饰 target. 

© 调用 被 装饰 的 target 运行 Inner。 

O 审查 对 象 ， 发 现 target 现在 是 inner 的 引用 。 

严格 来 说 ， 装 饰 右 只 是 语法 糖 。 如 前 所 示 ， 装 饰 器 可 以 像 音 规 的 可 调用 
对 象 那样 调用 ， 其 参数 是 另 一 个 函数 。 有 时 ， 这 样 做 更 方便 ， 尤 其 是 做 
元 编程 〈 在 运行 时 改变 程序 的 行为 ) 时 。 


综 上 ， 装 饰 器 的 一 大 特性 是 ， 能 把 家 装饰 的 函数 痊 换 成 其 他 函数 。 第 二 
个 特性 是 ， 装 饰 器 在 加 载 模块 时 立即 执行 。 下 一 节 会 说 明 。 
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装饰 器 的 一 个 关键 特性 是 ， 它 们 在 被 装饰 的 函数 定义 之 后 立即 运行 。 
通常 是 在 导入 时 〈 即 Python 加 载 模块 时 ) ， 如 示例 7-2 中 的 
registration.py 模块 所 示 。 


示例 7-2 registration.py 模块 


registry = [] © 


def register(func): @ 
print('running register(%s)' % func) © 
registry.append(func) 
return func © 


@register © 
def f1(): 
print('running f1()') 


@register 
def f2(): 
print('running f2()') 


def f3(): © 
print('running £3()') 


main(): 
‘running main()') 
‘registry ->', registry) 


Q registry 保存 被 @register 装饰 的 函数 引用 。 
© register 的 参数 是 一 个 函数 。 


@ 为 7 演示， 显示 被 装饰 的 函数 。 
四 把 func 存 入 registry. 
加 返回 func: 必须 返回 函数 ;这 里 返回 的 函数 与 通过 参数 传 入 的 一 


样 
@@f1 和 f2 被 Qregister 装饰 。 
O f3 没有 装饰 。 


QO main 显示 registry， 然 后 调用 f1()、f2() 和 f3()。 
只 有 把 registration.py 当 作 脚本 运行 时 才 调 用 main()。 
把 registration.py 当 作 脚本 运行 得 到 的 输出 如 下 : 


$ python3 registration.py 

running register(<function f1 at 0x100631bf8>) 
running register(<function f2 at @x10@631c8@>) 
running main() 


registry -> [<function f1 at 0x100631bf8>, <function f2 at 0x100631c80>] 
running f1() 
running 2() 
running f3() 


iE, register 在 模块 中 其 他 函数 之 前 运行 《两 次 ) 。 调 用 
register 时 ， 传 给 它 的 参数 是 被 装饰 的 函数 ， 例 如 <function f1 at 
0x100631bf8>. 


加 载 模块 后 ，registry 中 有 两 个 被 装饰 函数 的 引用 : f1 和 ff2。 这 两 
个 函数 ， 以 及 f3， 只 在 main 明确 调用 它们 时 才 执 行 


如 果 导 入 registration.py 模块 (不 作为 脚本 运行 )， 输 出 如 下 : 


>>> import registration 
running register(<function f1 at @x10@63b1e@>) 
running register(<function f2 at @x10@63b268>) 


此 时 查看 registry 的 值 ， 得 到 的 输出 如 下 : 


>>> registration.registry 
[<function f1 at @x10@63b1e@>, <function f2 at @x10@63b268> | 
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函数 只 在 明确 调用 时 运行 。 这 突出 了 Python 程序 员 所 说 的 导入 时 和 运 
行 时 之 间 的 区 别 。 


考 谍 到 装饰 器 在 真实 代码 中 的 凋 用 方式 ， 示 例 7-2 有 两 个 不 寻常 的 地 
方 。 


。 夺 饰 右 函数 与 被 朔 饰 的 函数 在 同一 个 模块 中 定义 。 实 际 情况 是 ， 故 
饰 器 通 当 在 一 个 模块 中 定义 ， 然 后 应 用 到 其 他 模块 中 的 函数 上 。 


e register ee a a 实际 上 ， 大 
多 数 装 饰 右 会 在 内 部 定义 一 个 函数 ， 然 后 将 其 


虽然 示例 7-2 中 的 register 装饰 器 原封 不 动 地 返回 被 装饰 的 函数 ， 但 
是 这 种 技术 并 非 没 有 用 处 。 很 多 Python Web 框架 使 用 这 样 的 装饰 器 把 函 
数 添加 到 某 种 中 央 注 册 处 ， 例 如 把 URL 模式 映射 到 生成 HTTP 响应 的 函 
数 上 的 注册 处 。 这 种 注册 装饰 器 可 能 会 也 可 能 不 会 修改 被 装饰 的 函数 。 
下 一 节 会 举例 说 明 。 


7.3 ”使 用 装饰 器 改进 “策略 ”模式 
使 用 注册 装饰 器 可 以 改进 6.1 节 中 的 电 商 促销 折扣 示例 。 


回顾 一 下 ， 示 例 6-6 的 主要 问题 是 ， 定 义 体 中 有 函数 的 名 称 ， 但 是 
best_promo 用 来 判断 哪个 折扣 幅度 最 大 的 promos 列表 中 也 有 函数 名 
称 。 这 种 重复 是 个 问题 ， 因 为 新 增 策略 函数 后 可 能 会 态 记 把 它 添加 到 
promos 列表 中 ， 导 致 best_promo 忽略 新 策略 ， 而 且 不 报错 ， 为 系统 
引入 了 不 易 察觉 的 缺陷。 示例 7-3 使 用 注册 装饰 器 解决 了 这 个 问题 。 


示例 7-3 promos 列表 中 的 值 使 用 promotion 装饰 器 填充 


promos = [] © 


def promotion(promo_ func): @ 
promos.append(promo_func) 
return promo_func 


@promotion © 
def fidelity(order): 
”"" 为 积分 为 1998 或 以 上 的 顾客 提供 5% 折 扣 """ 
return order.total() * .65 if order.customer.fidelity >= 1000 else 0 


@promotion 
def bulk_item(order): 
""" 单 个 商品 为 26 个 或 以 上 时 提供 16% 折 扣 """ 
discount = 6 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


@promotion 
def large _order(order): 
""" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return @ 


def best_promo(order): @ 
"" "选择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) 


O promos 列表 起 初 是 空 的 。 


© promotion 把 promo_func 添加 到 promos 列表 中 ， 然 后 原封 不 动 
地 将 其 返回 。 


© 被 @promotion 装饰 的 函数 都 会 添加 到 promos 列表 中 。 
@ best_promos 无 需 修改 ， 因 为 它 依 赖 promos 列表 。 
与 6.1 市 给 出 的 方案 相 比 ， 这 个 方案 有 几 个 优点 。 
。 促销 末 上 略 函 数 无 需 使 用 特殊 的 名 称 即 不 用 以 _promo 结尾 ) 。 


© @promotion 装饰 占 突 出 了 被 装饰 的 函数 的 作用 ， 还 便于 临时 禁用 
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o 促销 折扣 策略 可 以 在 其 他 模块 中 定义 ， 在 系统 中 的 任何 地 方 都 行 ， 
只 要 使 用 @promotion 装饰 即 可 。 


不 过 ， 多 数 装 饰 絮 会 修改 被 装饰 的 函数 。 通 常 ， 它 们 会 定义 一 个 内 部 函 
数 ， 然 后 将 其 返回 ， 符 换 和 被 装饰 的 函数 。 使 用 内 部 函数 的 代码 几乎 都 要 
徘 团 包 才 能 正确 运作 。 为 了 理解 闭 包 ， 我 们 要 退 后 一 步 ， 先 了 解 Python 
中 的 变量 作用 域 。 


7.4 变量 作用 域 规则 

在 示例 7-4 中 ， 我 们 定义 并 测试 了 一 个 函数 ， 它 读 取 两 个 变量 的 值 :一 
个 是 局 部 变量 a， 是 函数 的 参数 ， 另 一 个 是 变量 b， 这 个 函数 没有 定义 
Ee 


示例 7-4 一 个 函数 ， 读 取 一 个 局 部 变量 和 一 个 全 局 变量 


>>> def f1(a): 
print(a) 
print(b) 


>>> f1(3) 


3 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in f1 
NameError: global name 'b' is not defined 


出 现 错误 并 不 奇怪 。” 在 示例 7-4 中 ， 如 果 先 给 全 局 变量 b 赋值 ， 然 后 
再 调用 f， 那 就 不 会 出 错 : 


3 在 Python 3.5 中 ， 错 误 信息 是 NameError: name 'b' is not defined， 删 除了 global。 
编者 注 


>>> b= 6 
>>> f1(3) 


3 
6 


下 面 看 一 个 可 能 会 让 你 吃惊 的 示例 。 


看 一 下 示例 7-5 中 的 f2 函数 。 前 两 行 代码 与 示例 7-4 中 的 f1 一 样 ， 然 
后 为 b 赋值 ， 再 打印 它 的 值 。 可 是 ， 在 赋值 之 前 ， 第 二 个 print 失败 
To 


示例 7-5 b 是 局 部 变量 ， 因 为 在 函数 的 定义 体 中 给 它 赋 值 了 


>>> b = 6 

>>> def f2(a): 

sacs print(a) 
print(b) 
b = 9 


>>> f2(3) 
3 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in f2 
UnboundLocalError: local variable 'b' referenced before assignment 


注意 ， 首 先 输 出 了 3， 这 表明 print(a) 语句 执行 了 。 但 是 第 二 个 语句 
print(b) 执行 不 了 。 一 开始 我 很 吃惊 ， 我 觉得 会 打印 6， 因为 有 个 全 
局 变量 b， 而 且 是 在 print(b) 之 后 为 局 部 变量 b 赋值 的 。 


可 事实 是 ，Python 编译 函数 的 定义 体 时 ， 它 判断 b 是 局 部 变量 ， 因 为 在 
函数 中 给 它 赋 值 了 。 生 成 的 字 节 码 证 实 了 这 种 判断 ，Python 会 尝试 从 本 
地 环境 获取 b。 后 面 调用 f2(3) 时 ，f2 的 定义 体会 获取 并 打印 局 部 变 
fe a 的 值 ， 但 是 尝试 获取 局 部 变量 b KEN, AE b 没有 绑 定 值 。 
这 不 是 缺陷 ， 而 是 设计 选择 : Python 不 要 求 声明 变量 ， 但 是 假定 在 函数 
定义 体 中 赋值 的 变量 是 局 部 变量 。 这 比 JavaScript 的 行为 好 多 了 ， 
JavaScript 也 不 要 求 声 明 变 量 ,， 但 是 如 果 和 态 记 把 变量 声明 为 局 部 变量 
CEH var) ， 可 能 会 在 不 知情 的 情况 下 获取 全 局 变量 。 


如 果 在 函数 中 赋值 时 想 让 解释 器 把 b 当成 全 局 变量 ， 要 使 用 global 声 
HH: 


>>> b = 6 

>>> def f3(a): 

sae global b 
print(a) 
print(b) 
b=9 

>>> f3(3) 

3 

6 


>>> b 


了 解 Python 的 变量 作用 域 之 后 ， 下 一 节 可 以 讨论 财 包 了 。 如 果 好 奇 示 例 
7-4 和 示例 7-5 中 的 两 个 函数 生成 的 字 市 码 有 什么 区 别 ， 请 阅读 下 述 附 


注 栏 。 
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dis 模块 为 反 汇 编 Python 函数 字 节 码 提供 了 简单 的 方式 。 示 例 7-6 
和 7-7 中 分 别 是 示例 7-4 中 f1 和 示例 7-5 中 f2 的 字 节 码 。 


示例 7-6 反 汇 编 示 例 7-4 中 的 f1 函数 


>>> from dis import dis 
>>> dis(f1) 
2 LOAD GLOBAL 
LOAD_ FAST 
CALL_FUNCTION 
POP_TOP 


LOAD_ GLOBAL 
LOAD_ GLOBAL 
CALL_FUNCTION 
POP_TOP 
LOAD_CONST 
RETURN_VALUE 


@ 加 载 全 局 名 称 print. 
@ 加 载 本 地 名 称 a。 
O 加 载 全 局 名 称 b。 


(print) © 
(a) @ 


(1 positional, © keyword pair) 


(print) 
(b) © 


(1 positional, © keyword pair) 


(None) 


请 比较 示例 7-6 中 f1 的 字 节 人 码 和 示例 7-7 中 f2 的 凶 市 码 。 


示例 7-7 反 汇 编 示例 7-5 中 的 f2 函数 


>>> dis(f2) 

2 LOAD_GLOBAL (print) 
LOAD _FAST (a) 
CALL_FUNCTION (1 positional, © keyword pair) 
POP_TOP 


LOAD_GLOBAL (print) 
LOAD_FAST (b) @ 


CALL_FUNCTION (1 positional, © keyword pair) 
POP_TOP 


LOAD_CONST (9) 
STORE_FAST (b) 
LOAD_CONST (None) 
RETURN_VALUE 


@ 加 载 本 地 名 称 bo XRH, Eare b 视 作 局 部 变量 ， 即 使 在 后 
因为 变量 的 种 类 《是 不 是 局 部 变量 ) 不 能 改变 函数 


运行 字 节 人 码 的 CPython VM 是 栈 机 器 ， 因 此 LOAD 和 POP 操作 引用 
的 是 栈 。 深 入 说 明 Python 操作 码 不 在 本 书 范畴 之 内 ， 不 过 dis 模 
块 的 文档 Chttp://docs.python.org/3/library/dis.html) 对 其 做 了 说 明 。 


7.5 WE, 
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其 实 ， 闭 包 指 延伸 了 作用 域 的 函数 ， 其 中 包含 函数 定义 体 中 引用 、 但 是 
不 在 定义 体 中 定义 的 非 全 局 变量 。 函 数 是 不 是 匿名 的 没有 关系 ， 关 键 是 
它 能 访问 定义 体 之 外 定义 的 非 全 局 变量 。 

这 个 概念 难以 掌握 ， 最 好 通过 示例 理解 。 

假如 有 个 名 为 avg 的 函数 ， 它 的 作用 是 计算 不 断 增加 的 系列 值 的 均值 ; 
例如 ， 整 个 历史 中 茶 个 商品 的 平均 收盘 价 。 每 天 都 会 增加 新 价格 ， 因 此 
平均 值 要 考虑 至 目前 为 止 所 有 的 价格 。 


起 初 ，avg 是 这 样 使 用 的 : 


>>> avg(10) 
10.0 
>>> avg(11) 


10.5 
>>> avg(12) 
11.0 


ave 从 何 而 来 ， 它 又 在 哪里 保存 历史 值 呢 ? 
初学 者 可 能 会 像 示例 7-8 那样 使 用 类 实现 。 


示例 7-8 average_ oo.py: 计算 移动 平均 值 的 类 


class Averager(): 


def _ init__(self): 
self.series = [] 


def _call (self, new_value): 


self.series.append(new_value) 
total = sum(self.series) 
return total/len(self.series) 


Averager 的 实例 是 可 调用 对 象 : 


>>> avg = Averager() 
>>> avg(10) 

10.0 

>>> avg(11) 

10.5 

>>> avg(12) 

11.0 


示例 7-9 是 函数 式 实现 ， 使 用 高 阶 函 数 make_averager. 


示例 7-9 average.py: 计算 移动 平均 值 的 高 阶 函数 


def make_averager(): 
series = [] 


def averager(new_value): 
series.append(new_value) 
total = sum(series) 
return total/len(series) 


return averager 


调用 make_averager 时 ， 返 回 一 个 averager 函数 对 象 。 每 次 调用 
averager 时 ， 它 会 把 参数 添加 到 系列 值 中 ， 然 后 计算 当前 平均 值 ， 如 
示例 7-10 所 示 。 


示例 7-10 测试 示例 7-9 


>>> avg = make_averager() 
>>> avg(10) 

10.0 

>>> avg(11) 

10.5 

>>> avg(12) 


11.0 


注意 ， 这 两 个 示例 有 共通 之 处 : 调用 Averager() 或 
make_averager() 得 到 一 个 可 调用 对 象 avg， 它 会 更 新 历史 值 ， 然 后 
计算 当前 均值 。 在 示例 7-8 H, avg 是 Averager 的 实例 ;在 示例 7-9 
中 是 内 部 函数 averager. DEVE, BARR mH avg(n), 把 n 
放 入 系列 值 中 ， 然 后 重新 计算 均值 。 


Averager 类 的 实例 avg 在 哪里 存储 历史 值 很 明显 : self.series 实例 
属性 。 但 是 第 二 个 示例 中 的 avg 函数 在 哪里 寻找 series 呢 ? 


注意 ，series 是 make_averager 函数 的 局 部 变量 ， 因 为 那个 函数 的 定 
义 体 中 初始 化 了 series: series = []。 可 是 ， 调 用 avg(16) 

时 ，make_averager 函数 已 经 返回 了 ， 而 它 的 本 地 作用 域 也 一 去 不 复 
BT 


在 averager 函数 中 ，series 是 自由 变量 (free variable) 。 这 是 一 个 
技术 术语 ， 指 未 在 本 地 作用 域 中 绑 定 的 变量 ， 参 见 图 7-1. 


def make averager(): 


series 


def averager(new value): 


自由 变量 series|.append(new_value) 


total = (series) 
return total/len(series) 


return averager 


图 7-1: averager 的 闭 包 延伸 到 那个 函数 的 作用 域 之 外 ， 包 含 目 由 
变量 series 的 绑 定 


审查 返回 的 averager 对 象 ， 我 们 发 现 Python Æ _ code 属性 (表示 
编译 后 的 函数 定义 体 ) 中 保存 局 部 变量 和 自由 变量 的 名 称 ， 如 示例 7-11 


所 示 。 


示例 7-11 审查 make_averager (ILIR 7-9) 创建 的 函数 


>>> avg. code .co varnames 
('new_value', 'total') 


>>> avg. code .co freevars 
('series',) 


series 的 绑 定 在 返回 的 avg 函数 的 ”closure 属性 
H, avg. closure_ _ 中 的 各 个 元 素 对 应 于 
avg. Code _.co_freevars 中 的 一 个 名 称 。 这 些 元 素 是 cell WR, 


ee 属性 ， 保 存 着 真正 的 值 。 这 些 属 性 的 值 如 示例 7- 
12 WIA. 


示例 7-12 ”接续 示例 7-11 


>>> avg.__code__.co_freevars 
('series',) 
>>> avg. closure _ 


(<cell at 0x107a44f78: list object at 0x107a91a48>, ) 
>>> avg.__closure__[@].cell_contents 
[10, 11, 12] 


综 上 ， 闭 包 是 一 种 函数 ， 它 会 保留 定义 函数 时 存在 的 目 由 变量 的 绑 定 ， 
这 样 调用 函数 时 ， 昌 然 定 义 作用 域 不 可 用 了 ， 但 古 仍 能 使 用 那些 绑 定 。 


注意 ， 只 有 贬 套 在 其 他 函数 中 的 函数 才 可 能 需要 处 理 不 在 全 局 作用 域 中 
的 外 部 变量 。 


7.6 nonlocal? 4 


前 面 实现 make_averager 函数 的 方法 效率 不 高 。 在 示例 7-9 中 ， 我 们 
把 所 有 值 存储 在 历史 数列 中 ， 然 后 在 每 次 调用 averager 时 使 用 sum 求 
和 。 更 好 的 实现 方式 是 ， 只 存储 目前 的 总 值 和 元 素 个 数 ， 然 后 使 用 这 两 
个 数 计算 均值 。 


示例 7-13 中 的 实现 有 缺陷 ， 只 是 为 了 阐明 观点 。 你 能 看 出 缺陷 在 哪儿 
吗 ? 


7-13 ”计算 移动 平均 值 的 高 阶 函 数 ， 不 保存 所 有 历史 值 ， 但 有 
陷 


def make_averager(): 
count = 6 
total = 0 


def averager(new_value): 
count += 1 
total += new_value 
return total / count 


return averager 


尝试 使 用 示例 7-13 中 定义 的 函数 ， 会 得 到 如 下 结 


>>> avg = make_averager() 
>>> avg(10) 
Traceback (most recent call last): 


UnboundLocalError: local variable ‘count’ referenced before assignment 
>>> 


问题 是 ， 当 count 是 数字 或 任何 不 可 变 类 型 时 ，count += 1 语句 的 作 
用 其 实 与 count = count + 1 一 样 。 因 此 ， 我 们 在 averager 的 定义 
体 中 为 count 赋值 了 ， 这 会 把 count 变 成 局 部 变量 。total 变量 也 受 
这 个 问题 影响 。 


示例 7-9 没 遇 到 这 个 问题 ， 因 为 我 们 没有 给 series 赋值 ， 我 们 只 是 调 
用 series.append， 并 把 它 传 给 sum 和 len。 也 就 是 说 ， 我 们 利用 了 
列表 是 可 变 的 对 象 这 一 事实 。 


但 是 对 数字 、 字 符 串 、 元 组 等 不 可 变 类 型 来 说 ， 只 能 读 取 ， 不 能 更 新 。 
如 果 和 艾 试 重新 绑 定 ， 例 如 count = count + 1， 其 实 会 隐 式 创建 局 部 
变量 count。 这 样 ，count 就 不 是 自由 变量 了 ， 因 此 不 会 保存 在 闭 包 
HH 


为 了 解决 这 个 问题 ，Python3 引入 了 nonlocal 声明 。 它 的 作用 是 把 变 
量 标记 为 目 由 变量 ， 即 使 在 函数 中 为 变量 赋予 新 值 了 ， 也 会 变 成 目 由 变 
Æ. WRN nonlocal 声明 的 变量 赋予 新 值 ， 闭 包 中 保存 的 绑 定 会 更 
新 。 最 新 版 make_averager 的 正确 实现 如 示例 7-14 所 示 。 


示例 7-14 ”计算 移动 平均 值 ， 不 保存 所 有 历史 【使 用 nonlocal 修 
正 ) 


def make_averager(): 


count = @ 
total = 6 


def averager(new_value): 
nonlocal count, total 
count += 1 
total += new_value 
return total / count 


return averager 


A 对 付 没 有 nonlocal 的 Python 2 


Python 2 没有 nonlocal， 因 此 需要 变通 方法 ，“PEP 3104—Access 
to Names in Outer Scopes” (nonlocal 在 这 个 PEP 中 引 

A, http://www.python.org/dev/peps/pep-3104/) 中 的 第 三 个 代码 片 
段 给 出 了 一 种 方法 。 基 本 上 ， 这 种 处 理 方式 是 把 内 部 函数 需要 修改 
的 变量 (如 count 和 total) 存储 为 可 变 对 象 〈 如 字典 或 简单 的 
实例 ) 的 元 素 或 属性 ， 并 且 把 那个 对 象 绑 定 给 一 个 自由 变量 。 


人 至此， 我 们 了 解 了 Python HWE, Fa AEH RE R BUE AKIR HH A 
To 


7.7 ”实现 一 个 简单 的 装饰 器 


示例 7-15 定义 了 一 个 装饰 器 ， 和 它 会 在 每 次 调用 被 装饰 的 函数 时 计时 ， 
然后 把 经 过 的 时 间 、 传 入 的 参数 和 调用 的 结果 打印 出 来 。 


示例 7-15 ”一 个 简单 的 装饰 器 ， 输 出 函数 的 运行 时 间 


import time 


def clock(func): 
def clocked(*args): # © 
to = time.perf_counter() 
result = func(*args) #@ 


elapsed = time.perf_counter() - te 
name = func. name _ 
arg str = ', '.join(repr(arg) for arg in args) 
print('[%0.8fs] %s(%s) -> %r' % (elapsed, name, arg str, result)) 
return result 
return clocked # © 


@ 定义 内 部 函数 clocked， 它 接受 任意 个 定位 参数 。 
O 这 行 代码 可 用 ， 是 因为 clocked 的 闭 包 中 包含 自由 变量 func. 


n 函数 ， 取 代 被 装饰 的 函数 。 示 例 7-16 演示 了 clock 2 (has 
FAY 


示例 7-16 使 用 clock 装饰 器 


# clockdeco demo.py 


import time 
from clockdeco import clock 


@clock 
def snooze(seconds): 


time.sleep(seconds) 


@clock 


def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


if _name ==' main_': 
print('*' * 40, ‘Calling snooze(.123)') 
snooze(.123) 
print('*' * 40, ‘Calling factorial(6)') 
print('6! =', factorial(6)) 


运行 示例 7-16 得 到 的 输出 如 下 : 


$ python3 clockdeco demo.py 


OK AK AK Æ K K K OK K K RK OK K K Æ K K OK K K K K K K FK K Æ KKK KKK K K K KKK Calling snooze(123) 


[@.12405610s] snooze(.123) -> None 

FK 2K K K K K K K K K OK K K K K K K K OK K K K K K K K K Æ K K K K OK K K K K K K K Calling factorial(6) 
[@.00000191s] factorial(1) -> 1 

[@.00004911s] factorial(2) -> 

[@.00008488s] factorial(3) -> 

[@.00013208s] factorial(4) -> 

[@.00019193s] factorial(5) -> 

[@.00026107s] factorial(6) -> 

6! = 720 


工作 原理 
记得 吗 ， 如 下 代码 : 


@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


其 实 等 价 于 : 


def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


factorial = clock(factorial) 


因此 ， 在 两 个 示例 中 ，factorial 会 作为 func BRUES clock (参见 
示例 7-15) 。 然 后 ， clock RAAE] clocked 函数 ，Python 解释 器 
在 背后 会 把 clocked 赋值 给 factorial。 其 实 ， 导 入 
clockdeco_demo 模块 后 查看 factorial 的 name 属性， 会 得 到 
如 下 结果 : 


>>> import clockdeco demo 

>>> clockdeco demo.factorial. name _ 
"clocked' 

>>> 


所 以 ， 现 在 factorial 保存 的 是 clocked 函数 的 引用 。 自 此 之 后 ， 
次 调用 factorial(n)， 执 行 的 都 是 clocked(n)。clocked 大 致 做 了 
下 面 几 件 事 。 


(1) 记录 初始 时 间 tO. 

(2) 调用 原来 的 factorial 函数 ， 保 存 结果 。 

(3) 计算 经 过 的 时 间 。 

(4) 格式 化 收集 的 数据 ， 然 后 打印 出 来 。 

(5) 返回 第 2 步 保 存 的 结果 。 

这 是 装饰 器 的 典型 行为 : 把 被 装饰 的 函数 普 换 成 新 函数， 二 者 接受 相同 


的 参数 ， 而 且 《〈 通 常 ) 返回 被 疤 饰 的 函数 本 该 返回 的 值 ， 同 时 还 会 做 些 
额外 操作 。 


% Gamma 等 人 写 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 
一 书 是 这 样 概述 “装饰 右 ?" 模 式 的 : “动态 地 给 一 个 对 象 添 加 一 些 额 
外 的 职 贡 。” 函 数 装 饰 占 符合 这 一 说 法 。 但 是 ， 在 实现 层面 ，Python 
装饰 器 与 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 中 所 述 的 “并 
饰 器 ”没有 多 少 相 似 之 处 。“ 杂 谈 ” 会 进一步 探讨 这 个 话题 。 


示例 7-15 中 实现 的 clock 装饰 器 有 几 个 缺点 : 不 支持 关键 字 参 数 ， 而 
且 遮 盖 了 被 装饰 函数 的 “name 和 doc 属性。 示例 7-17 使 用 


functools.wraps 装饰 右 把 相关 的 属性 从 func 复制 到 clocked F. 
此 外 ， 这 个 新 版 还 能 正确 处 理 关键 字 参数 。 


示例 7-17 改进 后 的 clock 装饰 器 


# clockdeco2.py 


import time 
import functools 


def clock(func): 
@functools.wraps(func) 
def clocked(*args, **kwargs): 
to = time.time() 
result = func(*args, **kwargs) 
elapsed = time.time() - te 
name = func. name _ 
arg Ist = [] 
if args: 
arg lst.append(', '.join(repr(arg) for arg in args)) 
if kwargs: 
pairs = ['%s=%r' % (k, w) for k, w in sorted(kwargs.items()) ] 
arg lst.append(', '.join(pairs)) 
arg str = ', '.join(arg 1st) 
print('[%@.8fs] %s(%s) -> %r ' % (elapsed, name, arg str, result)) 
return result 
return clocked 


functools.wraps 只 是 标准 库 中 拿 来 即 用 的 装饰 器 之 一 。 下 一 节 将 介 
2H functools 模块 中 最 让 人 印象 深刻 的 两 个 闭 饰 器 : lru_cache 和 
Singledispatch. 


7.8 AUE JE Ae Uf as 


Python 内 置 了 三 个 用 于 装饰 方法 的 函数 : property, classmethod 和 
staticmethod. property 在 19.2 节 讨 论 ， 另 外 两 个 在 9.4 节 讨 论 。 


另 一 个 常见 的 装饰 器 是 functools .wraps， 它 的 作用 是 协助 构建 行为 
民 好 的 装饰 项 。 我 们 在 示例 7-17 中 用 过 。 标 准 库 中 最 值得 关注 的 两 个 
装饰 器 是 1ru_cache 和 全 新 的 singledispatch (Python 3.4 新 增 ) 。 
这 两 个 装饰 需 都 在 Functools 模块 中 定义 。 接 下 来 分 别 讨论 它们 。 


7.8.1 ”使 用 functools .lru_cache 做 备 态 


functools.1lru_cache 是 非常 实用 的 装饰 器 ， 它 实现 了 备 环 
(memoization) 功能。 这 是 一 项 优化 技术 ， 它 把 耗 时 的 函数 的 结果 保存 
起 来 ， 避 免 传 入 相同 的 参数 时 重复 计算 。LRU 三 个 字母 是 “Least 
Recently Used”" 的 缩写 ， 表 明 绥 存 不 会 无 限制 增长 ， 一 段 时 间 不 用 的 缓存 
条 目 会 被 扔 挥 。 


生成 第 n 个 韭 波 纳 问 数 这 种 慢 速 递归 函数 适合 使 用 lru_cache， 如 示例 
7-18 FAN 


示例 7-18 生成 第 n PERKARA, A IEE FE) 


from clockdeco import clock 


@clock 
def fibonacci(n): 
if n < 2: 
return n 
return fibonacci(n-2) + fibonacci(n-1) 


if _name ==' main_': 
print(fibonacci(6)) 


运行 fbo_ _demo.py 得 到 的 结果 如 下 。 除 了 最 后 一 行 ， 其 余 输出 都 是 
clock 装饰 器 生成 的 。 


$ python3 fibo_demo.py 


[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
[e. 
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00000095s ] 
00000095s | 
00007892s | 
00000095s | 
00000095s | 
00000095s | 
00003815s] 
00007391s] 
00018883s | 
86666666s | 
00000095s | 
00000119s | 
00004911s | 
00009704s | 
00000000s | 
86666666s | 
00002694s | 
00000095s | 
00000095s | 
00000095s | 
00005102s | 
00008917s | 
00015593s | 
Q0029993s | 
00052810s | 


fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(1) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(4) 
fibonacci(1) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(1) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(4) 
fibonacci(5) 
fibonacci(6) 


OUWNPFPPORBPBRONBFPRPORWNKRPRPORBREHO 


浪费 时 间 的 地 方 很 明显 : fibonacci(1) 调用 了 8 次 ，fibonacci(2) 
调用 了 5 次 ..….…... 但 是 ， 如 果 增 加 两 行 代 码 ， 使 用 lru_cache， 性 能 会 显 
HAE, WRA 7-19 所 示 。 


示例 7-19 使 用 缓存 实现 ， 速 度 更 快 


import functools 


from clockdeco import clock 


@functools.1lru_cache() # © 
@clock #@ 
def fibonacci(n): 
if n< 2: 
return n 
return fibonacci(n-2) + fibonacci(n-1) 


if _name ==' main_': 
print(fibonacci(6)) 


四 注意 ， 必 须 像 常规 函数 那样 调用 lru_cache。 这 一 行 中 有 一 对 括 
号 : @functools.1lru_cache()。 这 么 做 的 原因 是 ，]lru_cache 可 以 
接受 配置 参数 ， 稍 后 说 明 。 


O xB segs: @lru_cache() 应 用 到 @clock 返回 的 函数 上 。 
这 样 一 来 ， 执 行 时 间 减 半 了 ， 而 且 n 的 每 个 值 只 调用 一 次 函数 : 


$ python3 fibo_demo_lru.py 

[@.00000119s] fibonacci(@) -> 
[@.00000119s] fibonacci(1) -> 
[@.00010800s] fibonacci(2) -> 
[@.00000787s] fibonacci(3) -> 


[@.00016093s] fibonacci(4) -> 
[@.00001216s] fibonacci(5) -> 
[@.00025296s] fibonacci(6) -> 


在 计算 Fibonacci(30) 的 另 一 个 测试 中 ， 示 例 7-19 中 的 版 本 在 0.0005 
秒 内 调用 了 31 次 fibonacci 函数 ， 而 示例 7-18 中 未 缓存 的 版 本 调用 
fibonacci 函数 2 692 537 次 ， 在 使 用 Intel Core i7 人 处理 器 的 笔记 本 电脑 
中 耗 时 17.7 秒 。 


除了 优化 递归 算法 之 外 ，lru_cache 在 从 Web 中 获取 信息 的 应 用 中 也 
能 发 挥 巨 大 作用 。 


特别 要 注意 ，lru_cache 可 以 使 用 两 个 可 选 的 参数 来 配置 。 它 的 签名 


Š 
KE 


functools.1lru_cache(maxsize=128, typed=False) 


maxsize 参数 指定 存储 多 少 个 调用 的 结果 。 组 存 满 了 之 后 ， 旧 的 结果 会 
被 扔 反 ， 腾 出 空间 。 为 了 得 到 最 佳 性 能 ，maxsize 应 该 设 为 2 的 
ve. typed 参数 如 果 设 为 True， 把 不 同 参数 类 型 得 到 的 结果 分 开 保 


存 ， 即 把 通常 认为 相等 的 浮 点 数 和 整数 参数 (如 1 和 1.6) 区 分 开 。 顺 
便 说 一 下 ， 因 为 lru_cache 使 用 字典 存储 结果 ， 而 且 键 根据 调用 时 传 
入 的 定位 参数 和 关键 字 参 数 创 建 ， 所 以 被 lru_cache 装饰 的 函数 ， 它 
的 所 有 参数 都 必须 是 可 散 列 的 。 

接 下 来 讨论 吸引 人 的 functools.singledispatch 装饰 器 。 

7.8.2 FASS YRIZ PAL 


假设 我 们 在 开发 一 个 调试 Web 应 用 的 工具 ， 我 们 想 生 成 HTML， 显 示 不 
同类 型 的 Python 对 象 。 


我 们 可 能 会 编写 这 样 的 函数 : 
import html 


def htmlize(obj): 


content = html.escape(repr(obj) ) 
return '<pre>{}</pre>'.format(content) 


这 个 函数 适用 于 任何 Python 类 型 ， 但 是 现在 我 们 想 做 个 扩展 ， 让 它 使 用 
特别 的 方式 显示 茶 些 类 型 。 


e str: 把 内 部 的 换行 符 蔡 换 为 '<br>\n'; 不 使 用 <pre>， 而 是 使 
用 <p>. 


e int: 以 十 进 制 和 十 六 进 制 显示 数字 。 
e list: 输出 一 个 HTML 列表 ， 根 据 各 个 元 素 的 类 型 进行 格式 化 。 
我 们 想 要 的 行为 如 示例 7-20 所 示 。 


示例 7-20 生成 HIML 的 htmlize 函数 ， 调 整 了 几 种 对 象 的 输出 


>>> htmlize({1, 2, 3}) @O 
'<pre>{1, 2, 3}</pre>' 

>>> htmlize(abs) 

"<pre><built-in function abs></pre>' 


>>> htmlize('Heimlich & Co.\n- a game') @ 
"<p>Heimlich & Co.<br>\n- a game</p>' 

>>> htmlize(42) © 

"<pre>42 (@x2a)</pre>' 

>>> print(htmlize(['alpha', 66, {3, 2, 1}])) @ 
<ul> 


<1i><p>alpha</p></1i> 
<li><pre>66 (@x42)</pre></1li> 
<li><pre>{1, 2, 3}</pre></1li> 
</ul> 


ees E DE ne nee 
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OW str 对 象 显示 的 也 是 HTML 转 义 后 的 字符 串 表 示 形 式 ， 不 过 放 在 
<p></p> 中 ， 而 且 使 用 <br> 表示 换行 。 


© int 显示 为 十 进 制 和 十 六 进 制 两 种 形式 ， 放 在 <pre></pre> 中 。 
z 各 个 列表 项 目 根据 各 自 的 类 型 格式 化 ， 整 个 列表 则 泻 染 成 HTML 列 


因为 Python 不 文 持 重 载 方法 或 函数 ， 所 以 我 们 不 能 使 用 不 同 的 签名 定义 
htmlize 的 变 体 ， 也 无 法 使 用 不 同 的 方式 处 理 不 同 的 数据 类 型 。 在 
Python 中 ， 一 种 常见 的 做 法 是 把 htmlize 变 成 一 个 分 派 函 数 ， 使 用 一 
$ if/elif/elif， 调 用 专门 的 函数 ， 如 
htmlize_str、htmlize_int， 等 等 。 这 样 不 便于 模块 的 用 户 扩展 ， 还 
显得 笨拙 : 时 间 一 长 ， 分 派 函数 htmlize 会 变 得 很 大 ， 而 且 它 与 各 个 
专门 函数 之 间 的 耦合 也 很 紧密 。 


Python 3.4 新 增 的 functools .singledispatch 装饰 器 可 以 把 整体 方案 
拆 分 成 多 个 模块 ， 甚 至 可 以 为 你 无 法 修改 的 类 提供 专门 的 函数 。 使 用 
@singledispatch 装饰 的 普通 函数 会 变 成 泛 阔 数 (generic function) : 
根据 第 一 个 参数 的 类 型 ， 以 不 同方 式 执行 相同 操作 的 一 组 函数 。4 具体 
做 法 参见 示例 7-21。 


4 这 才 称 得 上 是 单 分 派 。 如 果 根据 多 个 参数 选择 专门 的 函数 ， 那 就 是 多 分 派 了 。 


a functools.singledispatch 是 Python 3.4 增加 的 ，PyPI 中 
的 singledispatch 包 (https://pypi.python.org/pypi/singledispatch) 
可 以 同 后 兼容 Python 2.6 到 Python 3.3. 


示例 7-21 singledispatch 创建 一 个 自 定义 的 
htmlize.register 装饰 器 ， 把 多 个 函数 绑 在 一 起 组 成 一 个 泛 函数 


from functools import singledispatch 
from collections import abc 

import numbers 

import html 


@singledispatch © 

def htmlize(obj): 
content = html.escape(repr (obj) ) 
return '<pre>{}</pre>'.format(content) 


@htmlize.register(str) @ 
© 


def (text): 
content = html.escape(text).replace('\n', ‘<br>\n') 
return '<p>{@}</p>'.format (content) 


@htmlize.register(numbers.Integral) @ 
def (n): 
return '<pre>{@} (@x{@:x})</pre>'.format(n) 


@htmlize.register(tuple) © 
@htmlize.register(abc.MutableSequence) 
def (seq): 
inner = '</1i>\n<li>'.join(htmlize(item) for item in seq) 
return ‘<ul>\n<li>' + inner + '</1i>\n</ul>' 


@ @singledispatch 标记 处 理 object 类 型 的 基 函 数 。 
@ 各 个 专门 函数 使 用 @«xbase_function».register(«type») 装饰 。 
O 专门 函数 的 名 称 无 关 紧 要 ; _ 是 个 不 错 的 选择 ， 简 单 明 了 。 


O 为 每 个 需要 特殊 处 理 的 类 型 注册 一 个 函数 。numbers .Integral 是 
int 的 虚拟 超 类 。 


O VUAKS + register 装饰 器 ， 让 同一 个 函数 文 持 不 同类 型 。 


只 要 可 能 ， 注 册 的 专门 函数 应 该 处 理 抽象 基 类 (如 numbers.Integral 
和 abc .MutableSequence) ， 不 要 处 理 具 体 实现 (如 int 和 

list) 。 这 样 ， 代 码 支 持 的 兼容 类 型 更 广泛 。 例 如 ，Python 扩展 可 以 子 
类 化 numbers .Integral， 使 用 固定 的 位 数 实现 int 类 型 。 


A 使 用 抽象 基 类 检查 类 型 ， 可 以 让 代码 支持 这 些 抽象 基 类 现 有 
和 未 来 的 具体 子 类 或 虚拟 子 类 。 抽 象 基 类 的 作用 和 虚拟 子 类 的 概念 
在 第 11 章 讨 论 。 


singledispatch 机 制 的 一 个 显著 特征 是 ， 你 可 以 在 系统 的 任何 地 方 和 
任何 模块 中 注册 专门 函数 。 如 果 后 来 在 新 的 模块 中 定义 了 新 的 类 型 ， 可 
以 轻松 地 添加 一 个 新 的 专门 函数 来 处 理 那个 类 型 。 此 外 ， 你 还 可 以 为 不 
是 自己 编写 的 或 者 不 能 修改 的 类 添加 自 定义 函数 。 


singledispatch 是 经 过 深思 熟 虑 之 后 才 添 加 到 标准 库 中 的 ， 它 提供 的 
特性 很 多 ， 这 里 无 法 一 一 说 明 。 这 个 机 制 最 好 的 文档 是 “PEP 443 一 
Single-dispatch generic functions” (https://www.python.org/dev/peps/pep- 
0443/) 。 


` @singledispatch 不 是 为 了 把 Java 的 那 种 方法 重 载 市 入 
Python。 在 一 个 类 中 为 同一 个 方法 定义 多 个 重 载 变 体 ， 比 在 一 个 函 
数 中 使 用 一 长 串 if/elif/elif/elif 块 要 更 好 。 但 是 这 两 种 方案 
都 有 人 缺陷， 因为 它们 让 代码 单元 〈 类 或 函数 ) 承担 的 职责 太 

多 。@singledispath 的 优点 是 文 持 模 块 化 扩展 : 各 个 模块 可 以 为 
它 支 持 的 各 个 类 型 注册 一 个 专门 函数 。 


装饰 器 是 函数 ， 因 此 可 以 组 合 起 来 使 用 ( 即 ， 可 以 在 已 经 被 六 饰 的 函数 
上 应 用 装饰 器 ， 如 示例 7-21 Ata) 。 下 一 节 说 明 其 中 的 原理 。 


7.9 Se iia 


示例 7-19 YAN T ACSIAN: @lru_cache 应 用 到 @clock 装饰 
fibonacci 得 到 的 结果 上 。 在 示例 7-21 中 ， 模 块 中 最 后 一 个 函数 应 用 
了 两 个 @htmlize.register 装饰 器 。 


把 @d1 和 @d2 两 个 装饰 器 按 顺 序 应 用 到 函数 上 ， 作 用 相当 于 下 = 
d1(d2(f)). 


Eaei PRAI: 


print('f') 


f = d1(d2(f)) 


eS SOC has ob, AI BI SL MRA as, Aan 
@lru_cache() 和 示例 7-21 F @singledispatch 生成 的 
htmlize.register(«type») 。 下 一 节 说 明 如何 构 建 接 受 参 数 的 装饰 
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解析 源码 中 的 装饰 器 时 ，Python 把 被 装饰 的 函数 作为 第 一 个 参数 传 给 装 
饰 器 函数 。 那 怎么 让 装饰 器 接受 其 他 参数 呢 ? 答案 是 : 创建 一 个 装饰 器 
工厂 函数 ， 把 参数 传 给 它 ， 返 回 一 个 装饰 器 ， 然 后 再 把 它 应 用 到 要 装饰 
的 函数 上 。 不 明白 什么 意思 ? 当然 。 下 面 以 我 们 见 过 的 最 简单 的 装饰 器 
为 例 说 明 : 示例 7-22 中 的 register. 


示例 7-22 ”示例 7-2 中 registration.py 模块 的 删 减 版 ， 这 里 再 次 给 
出 是 为 了 便于 讲解 


registry = [] 


def register(func): 
print( ‘running register(%s)' % func) 
registry.append(func) 
return func 


@register 
def f1(): 
print('running f1()') 


print( ‘running main()') 
print('registry ->', registry) 
f1() 


7.10.1 一 个 参数 化 的 注册 装饰 器 


为 了 便于 启用 或 禁用 register 执行 的 函数 注册 功能 ， 我 们 为 它 提供 一 
个 可 选 的 active 参数 ， 设 为 False 时 ， 不 注册 被 装饰 的 函数 。 实 现 方 
式 参见 示例 7-23。 从 概念 上 看 ， 这 个 新 的 register 函数 不 是 装饰 器 ， 
而 是 装饰 器 工厂 函数 。 调 用 它 会 返回 真正 的 装饰 器 ， 这 才 是 应 用 到 目标 
函数 上 的 装饰 器 。 


示例 7-23 为 了 接受 参数 ， 新 的 register Rimar UNE A RR ri 
用 


registry = set() © 
def register(active=True): @ 
def decorate(func): © 
print( ‘running register(active=%s) ->decorate(%s) ' 
% (active, func)) 
if active: 
registry.add(func) 
else: 
registry.discard(func) © 


return func © 
return decorate @ 


@register(active=False) © 
def f1(): 
print('running f1()') 


@register() © 
def f2(): 
print('running £2()') 


def £3(): 
print('running £3()') 


@ registry 现在 是 一 个 set 对 象 ， 这 样 添加 和 删除 函数 的 速度 更 快 。 
O register 接受 一 个 可 选 的 关键 字 参 数 。 


@ decorate 这 个 内 部 函数 是 真正 的 装饰 器 ;注意 ， 它 的 参数 是 一 个 函 
数 。 


O KA active 参数 的 值 ( 从 闭 包 中 获取 )〉 是 True 时 才 注册 func. 
O 如 果 active 不 为 真 ， 而 且 func 在 registry 中 ， 那 么 把 它 删 除 。 
@ decorate 是 装饰 器 ， 必 须 返 回 一 个 函数 。 

@ register 是 装饰 器 工厂 函数 ， 因 此 返回 decorate. 
@@register 工厂 函数 必须 作为 函数 调用 ， 并 且 传 入 所 需 的 参数 。 

© 即使 不 传 入 参数 ，register 也 必须 作为 函数 调用 


(@register()) ， 即 要 返回 真正 的 装饰 器 decorate. 


这 里 的 关键 是 ，register() 要 返回 decorate， 然 后 把 它 应 用 到 被 装 
饰 的 函数 上 。 


示例 7-23 中 的 代码 在 registration param.py 模块 中 。 如 果 导 入 ， 得 到 的 
结果 如 下 : 


>>> import registration_param 
running register(active=False) ->decorate(<function f1 at @x10063c1e@>) 


running register(active=True) ->decorate(<function f2 at @x10063c268>) 
>>> registration_param.registry 
{<function f2 at @x100@63c268>} 


注意 ， 只 有 f2 函数 在 registry 中 ; fa 不 在 其 中 ， 因 为 传 给 
register 装饰 器 工厂 函数 的 参数 是 active=False， 所 以 应 用 到 f1 上 
的 decorate 没有 把 它 添 加 到 registry F. 


如 果 不 使 用 @ 句 法 ， 那 台 要 像 常 规 函数 那样 使 用 register; A A048 f 
添加 到 registry 中 ， 则 装饰 f 函数 的 句法 是 register()(f); 不 想 
添加 《或 把 它 删 除 ) 的 话 ， 句 法 是 register(active=False)(f). A 
7-24 演示 了 如 何 把 函数 添加 到 registry 中 ， 以 及 如 何 从 中 删除 函 


示例 7-24 使 用 示例 7-23 中 的 registration_param 模块 


>>> from registration param import * 

running register(active=False)->decorate(<function f1 at @x10073c1e@>) 
running register(active=True) ->decorate(<function f2 at @x10073c268>) 
>>> registry # © 

{<function f2 at @x10073c268>} 

>>> register()(f3) #@ 

running register(active=True) ->decorate(<function f3 at @x10073c158>) 
<function f3 at @x10@73c158> 

>>> registry # © 

{<function f3 at @x10@73c158>, <function f2 at @x10073c268>} 

>>> register(active=False)(f2) # @ 

running register(active=False) ->decorate(<function f2 at @x10073c268>) 
<function f2 at 0x10@73c268> 

>>> registry # O 

{<function f3 at @x10073c158>} 


@ 导入 这 个 模块 时 ，f2 在 registry 中 。 

四 register() 表达 式 返 回 decorate， 然 后 把 它 应 用 到 f3 上 。 

© 前 一 行 把 f3 添加 到 registry 中 。 

@ 这 次 调用 从 registry 中 删除 f2。 

@ 确认 registry 中 只 有 f3。 

参数 化 装饰 器 的 原理 相当 复杂 ， 我 们 刚刚 讨论 的 那个 比 大 多 数 都 简单 。 


参数 化 六 饰 器 通 第 会 把 被 装饰 的 函数 丛 换 挥 ， 而 且 结 构 上 需要 多 一 层 柑 
套 。 接 下 来 会 探讨 这 种 函数 金字 塔 。 


7.10.2 ”参数 化 clock 装 饰 妖 


本 节 再 次 探讨 clock 装饰 器 ， 为 它 添加 一 个 功能 : 让 用 户 传 入 一 个 格 
式 字符 串 ， 控 制 被 装饰 函数 的 输出 。 参 见 示例 7-25. 


` 为 了 简单 起 见 ， 示 例 7-25 基于 示例 7-15 中 最 初 实现 的 
clock， 而 不 是 示例 7-17 中 使 用 @functools.wraps 改进 后 的 版 
本 ， 因 为 那 一 版 增加 了 一 层 函数 。 


示例 7-25 clockdeco parampy 模块 : 参数 化 clock 装饰 器 


import time 


DEFAULT_FMT = '[{elapsed:0.8f}s] {name}({args}) -> {result}' 


def clock(fmt=DEFAULT FMT): © 
def decorate(func): (2) 
def clocked(*_args): © 
to = time.time() 
_result = func(*_args) @ 
elapsed = time.time() - te 
name = func. name _ 
args = ', '.join(repr(arg) for arg in _args) © 


result = repr(_result) © 
print(fmt.format(**locals())) @ 
return _result 
return clocked © 
return decorate @ 


if _name == '_ main _ 
@clock() 
def snooze(seconds): 


time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


@ clock 是 参数 化 装饰 器 工厂 函数 。 

© decorate 是 真正 的 装饰 器 。 

© clocked 包装 被 装饰 的 函数 。 

@ result 是 被 装饰 的 函数 返回 的 真正 结果 。 


加 args 是 clocked 的 参数 ，args 是 用 于 显示 的 字符 串 。 
O result 是 _result 的 字符 串 表 示 形 式 ， 用 于 显示 。 
O 这 里 使 用 **locals() 是 为 了 在 Fmt 中 引用 clocked 的 局 部 变量 。 


eo Ze DUNST PBSC, KE É MIAR Ey TY PK I E 


© decorate 返回 clocked. 
@ clock 返回 decorate. 


@ 在 这 个 模块 中 测试 ， 不 传 入 参数 调用 clock()， 因 此 应 用 的 装饰 器 
使 用 默认 的 格式 stro 


在 shell 中 运行 示例 7-25， 会 得 到 下 述 结果 : 


$ python3 clockdeco_param.py 
[@.124125@@s] snooze(@.123) -> None 


[@.12411904s] snooze(@.123) -> None 
[@.12410498s] snooze(@.123) -> None 


示例 7-26 和 示例 7-27 是 另外 两 个 模块 ， 它 们 使 用 了 clockdeco_param 
模块 中 的 新 功能 ， 随 后 是 两 个 模块 输出 的 结果 。 


示例 7-26 clockdeco param demol.py 


import time 
from clockdeco_param import clock 


@clock('{name}: {elapsed}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


示例 7-26 的 输出 : 


$ python3 clockdeco_param_demo1.py 
snooze: 90.12414693832397461s 
snooze: 9@.1241159439086914s 
snooze: 90.12412118911743164s 


示例 7-27 clockdeco param demo2.py 


import time 
from clockdeco_param import clock 


@clock('{name}({args}) dt={elapsed:0.3f}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


示例 7-27 的 输出 : 


$ python3 clockdeco param demo2.py 
snooze(@.123) dt=@.124s 
snooze(@.123) dt=@.124s 


snooze(@.123) dt=@.124s 


受 本 书 篇 幅 限 制 ， 我 们 对 装饰 器 的 探讨 到 此 结束 。 延 伸 阅 读 中 的 资料 讨 
论 了 构建 工业 级 装饰 器 的 技术 ， 尤 其 是 Graham Dumpleton 的 博客 和 
wrapt 模块 。 


` Graham Dumpleton 和 Lennart Regebro 〈 本 书 的 技术 审 校 之 一 ) 

认为 ， 装 饰 器 最 好 通过 实现 call _ 方法 的 类 实现 ， 不 应 该 像 本 

章 的 示例 那样 通过 函数 实现 。 我 同意 使 用 他 们 建议 的 方式 实现 非 平 

2 但 是 使 用 函数 解说 这 个 语言 特性 的 基本 思想 更 易 
TH AA 0 
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本 章 介绍 了 很 多 基础 知识 ， 虽 然 学 习 之 路 崎 贱 不 平 ， 我 还 是 尽 可 能 让 路 
途 平坦 顺畅 。 毕 竟 ， 我 们 已 经 进入 元 编程 领域 了 。 


开始 ， 我 们 先 编 写 了 一 个 没有 内 部 函数 的 @register 装饰 器 : 最 后 ， 
我 们 实现 了 有 两 层 侍 套 函 数 的 参数 化 装饰 器 @clock()。 


尽管 注册 奢 饰 器 在 多 数 情况 下 者 很 简单 ， 但 是 在 高 级 的 Python HEA H A 
有 用 武之 地 。 我 们 使 用 注册 方式 对 第 6 章 的 “策略 ”模式 做 了 重 构 。 


参数 化 装饰 器 基本 上 都 涉及 至 少 两 层 艇 套 函 数 ， 如 果 想 使 用 
@functools.wraps 生成 装饰 器 ， 为 高 级 技术 提供 更 好 的 文 持 ， 舰 套 层 
级 可 能 还 会 更 深 ， 比 如 前 面 简要 介绍 过 的 车 放 装饰 器 。 


我 们 还 讨论 了 标准 库 中 functools 模块 提供 的 两 个 出 色 的 函数 装饰 
as: @lru_cache() 和 @singledispatch。 


若 想 真正 理解 装饰 器 ， 需 要 区 分 导入 时 和 运行 时 ， 还 要 知道 变量 作用 
域 、 闭 包 和 新 增 的 nonlocal 声明 。 和 掌握 闭 包 和 nonlocal 不 仅 对 构建 
装饰 器 有 帮助 ， 还 能 协助 你 在 构建 GUI 程序 时 面向 事件 编程 ， 或 者 使 用 
回调 处 理 异步 IO。 


7.12 ”延伸 阅读 


《Python Cookbook ($ 3 版， 中文 版 》 (David Beazley 和 Brian K. Jones 
i) 的 第 9 章 “ 元 编程 "有 几 个 诀 罕 构 建 了 基本 的 装饰 器 和 特别 复杂 的 装 
Vat FEA, “9.6 定义 一 个 能 接收 可 选 参数 的 装饰 器 "一 节 中 的 装饰 右 
可 以 作为 常规 的 装饰 器 调用 ， 也 可 以 作为 装饰 器 工厂 函数 调用 ， 例 如 
@clock 或 @clock()。 


Graham Dumpleton 写 了 一 系列 博客 文章 
Chttps://github.com/GrahamDumpleton/wrapt/blob/develop/blog/README.1 
RAHIT SGT SCOT ON Be ia, 5 — i E“How You 
Implemented Your Python Decorator is 
Wrong” Chttps://github.com/GrahamDumpleton/wrapt/blob/develop/blog/01- 
how-you-implemented-your-python-decorator-is-wrong.md) 。 他 在 这 方面 
的 深厚 知识 充分 体现 在 在 他 编写 的 wrapt 模块 
Chttp://wrapt.readthedocs.org/en/latest/) 中。 这 个 模块 的 作用 是 简化 装饰 
恬 和 动态 函数 包 六 右 的 实现 ， 即 使 多 层 装 饰 也 支持 内 省 ， 而 且 行 为 正 
确 ， 既 可 以 应 用 到 方法 上 ， 也 可 以 作为 描述 符 使 用 。《 描 述 符 在 本 书 第 
20 章 讨 论 。) 


Michele Simionato 开 及 了 一 个 包 ， 根 据 文 要 ， 它 旨 在 “简化 普通 程序 员 使 
用 装饰 器 的 方式 ， 并 且 通 过 各 种 复杂 的 示例 推广 装饰 器 ?”。 这 个 包 是 
decorator Chttps://pypi.python.org/pypi/decorator) ， 可 通过 PyPI 安装 。 


Python Decorator Library 维基 页 面 
Chttps://wiki.python.org/moin/PythonDecoratorLibrary) 在 Python 刚 添 加 
装饰 器 这 个 特性 时 就 创建 了 ， 里 面 有 很 多 示例 。 由 于 那个 页 面 是 几 年 前 

开始 编写 的 ， 有 些 技术 已 经 过 时 了 ， 不 过 仍 是 很 棒 的 灵感 来 源 。 


PEP 443 Chttp://www.python.org/dev/peps/pep-0443/) 对 单 分 派 泛 函数 的 
基本 原理 和 细节 做 了 说 明 。Guido van Rossum 很 久 以 前 (2005 3 H) 
写 的 一 篇 博客 文章 “Five-Minute Multimethods in 

Python” Chttp://www.artima.con/weblogs/viewpost.jsp?thread=101605) 详 
细 说 明了 如 何 使 用 装饰 器 实现 泛 函 数 〈 也 叫 多 方法 ) 。 他 给 出 的 代码 文 
持 多 分 派 〈 即 根据 多 个 定位 参数 进行 分 派 ) o Guido 写 的 多 方法 代码 很 


棒 ， 但 那 只 是 教学 示例 。 如 果 想 使 用 现代 的 技术 实现 多 分 派 泛 函 数 ， 并 
文 持 在 生产 环境 中 使 用 ， 可 以 用 Martijn Faassen 开发 的 

Reg Chttp://reg.readthedocs.io/en/latest/) > Martijn 还 是 模型 驱动 型 REST 
式 Web 框架 Morepath Chttp://morepath.readthedocs.org/en/latest/) 的 开发 
T 


Fredrik Lundh 写 的 一 篇 短文 “Closures in 
Python”(http://effbot.org/Zzone/closure.htm) 解 说 了 闭 包 这 个 术语 。 


“PEP 3104—Access to Names in Outer 

Scopes” Chttp://www.python.org/dev/peps/pep-3104/) 说 明了 引入 
nonlocal 声明 的 原因 : 重新 绑 定 既 不 在 本 地 作用 域 中 也 不 在 全 局 作用 
域 中 的 名 称 。 这 份 PEP 还 概述 了 其 他 动态 语言 (Perl, Ruby, 
JavaScript， 等 等 ) 解决 这 个 问题 的 方式 ， 以 及 Python 中 可 用 设计 方案 
的 优 缺 点 。 


“PEP 227 一 Statically Nested Scopes” Chttp://www.python.org/dev/peps/pep- 
0227/) 更 偏重 于 理论 ， 说 明了 Python 2.1 引入 的 词法 作用 域 。 词 法 作用 
域 在 这 一 版 里 是 一 种 方案 ， 到 Python 2.2 就 变 成 了 标准 。 此 外 ， 这 份 
PEP 还 说 明了 Python 中 闭 包 的 基本 原理 和 实现 方式 的 选择 。 
AR IR 
任何 把 函数 当 作 一 等 对 象 的 语言 ， 它 的 设计 者 都 要 面 对 一 个 问题 : 
作为 一 等 对 象 的 函数 在 茶 个 作用 域 中 定义 ， 但 是 可 能 会 在 其 他 作用 
域 中 调用 。 问 题 是 ， 如 何 计算 自由 变量 ? 首先 出 现 的 最 简单 的 处 理 
et a hate th, ATE eR bee A AT EIA Bet 
算 自由 变量 。 


如 果 Python 使 用 动态 作用 域 ， 不 文 持 朵 包 ， 那 么 avg〈 与 示例 7-9 
类 似 ) 可 以 写成 这 样 : 


>>> HHH 这 不 是 真实 的 Python 控制 台 会 话 ! HE 
>>> avg = make_averager() 

>>> series = [] # © 

>>> avg(10) 

10.0 


>>> avg(11) # @ 
10.5 


>>> avg(12) 
11.0 


>>> series = [1] # © 
>>> avg(5) 
3.0 


Q 使 用 avg 之 前 要 自己 定义 series = []， 因 此 我 们 必须 知道 
averager (TE make_averager 内 部 ) 引用 的 是 一 个 列表 。 


O 在 背后 使 用 series 累计 要 计 入 平均 值 的 值 。 
© 执行 series = [1] 后 ， 之 前 的 列表 消失 了 。 同时 计算 两 个 独 


并 的 移动 平均 值 时 可 能 会 发 生 这 种 意外 。 


函数 应 该 是 黑 盒 ， 把 实现 隐藏 起 来 ， 不 让 用 户 知道 。 但 是 对 动态 作 
用 域 来 说 ， 如 果 函 数 使 用 自由 变量 ， 程序 员 必 须知 道 函 数 的 内 部 细 
节 ， 这 样 才 能 搭建 正确 运行 所 需 的 环境 。 


男 一 方面 ， 动 态 作 用 域 易于 实现 ， 这 可 能 束 是 John McCarthy 创建 
Lisp“ 第 一 门 把 函数 视 作 一 等 对 象 的 语言 ) 时 采用 这 种 方式 的 原 
o Paul Graham 写 的 “The Roots of Lisp” 一 文 
(http://www.paulgraham.com/rootsoflisp.html ) 对 John McCarthy 关 
于 Lisp 语言 那 篇 论文 (“Recursive Functions of Symbolic Expressions 
and Their Computation by Machine, Part P’, http://www- 
formal.stanford.edu/jme/recursive/recursive. html) 做 了 通俗 易 懂 的 解 
Bie McCarthy 那 遍 论文 是 和 贝多 分 第 九 交 啊 曲 一 样 伟大 的 杰作 。 
Paul Graham 使 用 通俗 易 懂 的 语言 翻译 了 那 篇 论文 ， 把 数学 原理 转 
换 成 了 英语 和 可 运行 的 代码 。 


Paul Graham 的 注解 还 指出 动态 作用 域 难以 实现 。 下 面 这 段 文字 引 
目 “The Roots of Lisp” 一 文 : 


就 连 第 一 个 Lisp 高 阶 函 数 示 例 都 因为 动态 作用 域 而 无 法 运 
RA) 证 明了 动态 作用 域 的 危险 性 。McCarthy Æ 1960 年 

能 没有 全 面 认 识 到 动态 作用 域 的 影响 。 动 态 作 用 域 在 各 种 
实现 中 存在 的 时 间 特 别 长 ， 直 到 Sussman 和 Steele 在 1975 
年 开发 出 Scheme 为 止 。 词 法 作用 域 不 会 把 eval 的 定义 变 得 
多 么 复杂 ， 只 是 编译 器 可 能 更 难 编写 。 


如 今 ， 词 法 作用 域 已 成 常态 根据 定义 函数 的 环境 计算 目 由 变量 。 
词法 作用 域 让 人 更 难 实现 文 持 一 等 函数 的 语言 ， 因 为 需要 文 持 闭 
包 。 不 过 ， 词 法 作用 域 让 代码 更 易于 阅读 。Algol 之 后 出 现 的 语言 
大 都 使 用 词法 作用 域 。 


多 年 来 ，Python 的 lambda 表达 式 不 文 持 财 包 ， 因 此 在 博客 圈 的 函 
数 式 编程 极 客 群 体 中 ， 这 个 特性 的 名 声 并 不 好 。Python 2.2 (2001 

年 12 月 发 布 ) 修正 了 这 个 问题 ， 但 是 博客 圈 的 固有 印象 不 会 轻易 
ee 仅仅 由 于 句法 上 的 局 限 ，lambda 一 直 处 于 复诊 
和 境 地。 


Python 装饰 器 和 装饰 器 设计 模式 


Python 函数 装饰 器 符合 Gamma 等 人 在 《设计 模式 ， 可 复 用 面 癌 对 
象 软件 的 基础 》 一 书 中 对 “装饰 器 ”模式 的 一 般 描 述 :“ 动 态 地 给 一 
个 对 象 添加 一 些 额 外 的 职责 。 就 扩展 功能 而 言 ， 装 饰 器 模式 比 子 类 
化 更 灵活 。” 


在 实现 层面 ，Python 装饰 器 与 “装饰 右 ” 设 计 模 式 不 同 ， 但 是 有 些 相 
似 之 处 。 


在 设计 模式 中 ，Decorator 和 Component 是 抽象 类 。 为 了 给 具体 
组 件 添加 行为 ， 具 体 装 饰 器 的 实例 要 包装 具体 组 件 的 实例 。《 设 计 
模式 : 可 复 用 面 同 对 象 软件 的 基础 》 一 书 是 这 样 说 的 : 


装饰 器 与 它 所 装饰 的 组 件 接口 一 致 ， 因 此 它 对 使 用 该 组 件 的 客 
户 透 明 。 它 将 客户 请 求 转发 给 该 组 件 ， 并 且 可 能 在 转发 前 后 执 
行 一 些 额外 的 操作 《〈 例 如 绘制 一 个 边框 》 。 透 明 性 使 得 你 可 以 
a 从 而 可 以 添加 任意 多 的 功能 。 (第 115 
Dip) 


在 Python 中 ， 装 饰 器 函数 相当 于 Decorator 的 具体 子 类 ， 而 装饰 
锅 返 回 的 内 部 函数 相当 于 装饰 费 实 例 。 返 回 的 函数 包装 了 被 装饰 的 
函数 ， 这 相当 于 “装饰 器 ”设计 模式 中 的 组 件 。 返 回 的 函数 是 透明 

的 ， 因 为 它 接受 相同 的 参数 ， 符 合 组 件 的 接口 。 返 回 的 函数 把 调用 
转发 给 组 件 ， 可 以 在 转发 前 后 执行 额外 的 操作 。 因 此 ， 前 面 引用 那 
段 话 的 最 后 一 句 可 以 改 成 : “透明 性 使 得 你 可 以 递归 仍 套 多 个 装饰 
器 ， 从 而 可 以 添加 任意 多 的 行为 。” 这 就 是 登 放 装饰 器 的 理论 基 


Fili o 


注意 ， 我 不 是 建议 在 Python FEF P EH R ACR AR SKIN Se I ae 
式 。 在 特定 情况 下 确实 可 以 这 么 做 ， 但 是 一 般 来 说 ， 实 现 “ 装 饰 
需 ” 模 式 时 最 好 使 用 类 表示 装饰 器 和 要 包 奢 的 组 件 。 


FM Boy EAN Be te A 


Set 对 象 引 用 、 可 变性 和 志 圾 
回收 


“你 不 开心 ，” 白 骑士 用 一 种 忧虑 的 声调 说 ,， “让 我 给 你 唱 一 首 歌 安 
感 你 吧 .…… 这 首 歌 的 曲名 叫 作 :《 黑 线 鲁 的 眼睛 》。” 


We 
兴趣 。 


“不 ， 你 不 明白 ，” 白 骑士 说 ， 看 来 有 些 心 烦 的 样子 ,“ 那 是 人 家 这 
么 叫 的 曲名 。 真 正 的 曲名 是 《 老 而 又 老 的 老头 儿 》。?”《〈 改 编目 第 
8 章 “ 这 是 我 目 己 的 发 明 ”) 


Lewis Carroll 
《爱丽 丝 镜 中 奇遇 记 》 


爱丽 丝 和 日 骑士 为 本 章 要 讨论 的 内 容 定 了 基调 。 本 章 的 主题 是 对 象 与 对 
象 名 称 之 间 的 区 别 。 名 称 不 是 对 象 ， 而 是 单独 的 东西 。 


本 章 先 以 一 个 比喻 说 明 Python 的 变量 : 变量 是 标注 ， 而 不 是 盒 于 。 如 采 
你 不 知道 引用 式 变量 是 什么 ， 可 以 像 这 样 对 别人 解释 别名 。 


然后 ， 本 章 讨 论 对 象 标识 、 值 和 别名 等 概念 。 随 后 ， 本 草 会 揭露 元 组 的 
一 个 神奇 特性 : 元 组 是 不 可 变 的 ， 但 是 其 中 的 值 可 以 改变 ， 之 后 就 引申 
到 浅 复制 和 深 复 制 。 接 下 来 的 话题 是 引用 和 函数 参数 : 可 变 的 参数 默认 
值 导 致 的 问题 ， 以 及 如 何 安全 地 处 理 函 数 的 调用 者 传 入 的 可 变 参 数 。 


本 章 最 后 一 节 讨论 垃圾 回收 、del 命令 ， 以 及 如 何 使 用 弱 引用 * 记 住 "对 
象 ， 而 无 需 对 象 本 身 存在 。 


本 章 的 内 容 有 点 儿 顶 燥 ， 但 是 这 些 话题 却 是 解决 Python 程序 中 很 多 不 易 
察觉 的 bug 的 关键 。 


首先 ， 我 们 要 抛弃 变量 是 存储 数据 的 盒子 这 一 错误 观念 。 


8.1 Lahey 


1997 年 夏天 ， 我 在 MIT 学 了 一 门 Java RFE. Lynn Andrea Stein 教授 
一 位 获奖 的 计算 机 科学 教育 工作 者 ， 目 前 在 欧 林 工程 学 院 教 书 ) 指 
出 ， 人 们 经 稼 使 用 “变量 是 盒子 ”这 样 的 比喻 ， 但 是 这 有 碍 于 理解 面向 对 
象 语言 中 的 引用 式 变量 。Python 变量 类 似 于 Java 中 的 引用 式 变量 ， 因 此 
最 好 把 它们 理解 为 附加 在 对 象 上 的 标注 。 
在 示例 8-1 所 示 的 交互 式 控制 台中 ， 无 法 使 用 “变量 是 盒子 ”做 解释 。 图 
8-1 说 明了 在 Python 中 为 什么 不 能 使 用 盒子 比喻 ， 而 便利 贴 则 指出 了 变 
量 的 正确 工作 方式 。 


示例 8-1 变量 a 和 b 引用 同一 个 列表 ， 而 不 是 那个 列表 的 副本 


>>> a = [1, 2, 3] 
>>> b=a 
>>> a.append(4) 


图 8-1: 如 果 把 变量 想象 为 合子， 那么 无 法 解释 Python 中 的 赋值 ; 
应 该 把 变量 视 作 便利 贴 ， 这 样 示例 8-1 中 的 行为 就 好 解释 了 


Stein 教授 还 反复 讲解 了 赋值 方式 。 例 如 讲 到 seesaw 对 象 时 ， 她 会 说 “把 
变量 s 分 配给 seesaw”， 绝 不 会 说 “把 seesaw 分 配给 变量 s”"。 对 引用 式 
变量 来 说 ， 说 把 变量 分 配给 对 象 更 合理 ， 反 过 来 说 就 有 问题 。 毕 竞 ， 对 
象 在 赋值 之 前 就 创建 了 。 示 例 8-2 证 明 赋值 语句 的 右边 先 执行 。 


示例 8-2 创建 对 象 之 后 才 会 把 变量 分 配给 对 象 


>>> class Gizmo: 
def _ init__(self): 
print('Gizmo id: %d' % id(self)) 


>>> x = Gizmo() 

Gizmo id: 4301489152 © 
>>> y = Gizmo() * 10 @ 
Gizmo id: 4301489432 © 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for *: 'Gizmo' and ‘int' 
>>> 
>> dir() @ 
['Gizmo', ' builtins ', ' doc ', ‘__loader__', '__name_', 
"__ package __', '__spec_', ‘x' 


@ 输出 的 Gizmo id: ... 是 创建 Gizmo 实例 的 副作用 。 
O 在 乘法 运算 中 使 用 Gizmo 实例 会 抛 出 异常 。 
O 这 里 表明 ， 在 尝试 求 积 之 前 其 实 会 创建 一 个 新 的 Gizmo 实例 。 


OJE, ERRUER y, BEH ATRI 
了 异常 。 


% 为 了 理解 Python 中 的 赋值 语句 ， 应 该 始终 先 读 右边 。 对 象 在 
右边 创建 或 获取 ， 在 此 之 后 左边 的 变量 才 会 绑 定 到 对 象 上 ， 这 惑 像 
为 对 象 贴 上 标注 。 环 掉 盒 子 吧 ! 


因为 变量 只 不 过 是 标注 ， 所 以 无 法 阻止 为 对 象 贴 上 多 个 标注 。 贴 的 多 个 
标注 ， 束 是 别名 。 参 见 下 一 节 。 


8.2 标识、 相等 性 和 别名 


Lewis Carroll 是 Charles Lutwidge Dodgson 教授 的 笔名 。Carroll 先生 指 
的 束 是 Dodgson 教授 ， 二 者 是 同一 个 人 人。 示例 8-3 用 Python 表达 了 这 个 
概念 o 


示例 8-3 charles 和 lewis 指 代 同一 个 对 象 


>>> charles = {'name': 'Charles L. Dodgson', ‘born': 1832} 
>>> lewis = charles @ 
>>> lewis is charles 


True 


>>> id(charles), id(lewis) @ 

(4300473992, 4300473992) 

>>> lewis['balance'] = 950 © 

>>> charles 

{'name': 'Charles L. Dodgson', ‘balance’: 950, ‘born': 1832} 


@ lewis 是 charles 的 别名 。 

© is 运算 符 和 id 函数 确认 了 这 一 点 。 

© lewis 中 添加 一 个 元 素 相 当 于 向 charles 中 添加 一 个 元 素 。 
然而 ， 假 如 有 冒充 者 (姑且 叫 他 Alexander Pedachenko 博士 ) 生 于 1832 


年 ， 声 称 他 是 Charles L. Dodgson。 这 个 冒充 者 的 证 件 可 能 一 样 ， 但 是 
Pedachenko 博士 不 是 Dodgson 教授 。 这 种 情况 如 图 8-2 所 示 。 


图 8-2: charles 和 lewis 绑 定 同一 个 对 象 ，alex 绑 定 另 一 个 具有 
相同 内 容 的 对 象 


示例 8-4 实现 并 测试 了 图 8-2 中 那个 alex 对 象 。 


示例 8-4 alex 与 charles 比较 的 结果 是 相等 ， 但 alex 不 是 
charles 


>>> alex = {'name': 'Charles L. Dodgson', 'born': 1832, 'balance': 950} © 
>>> alex == charles @ 


True 
>>> alex is not charles © 
True 


@ alex 指 代 的 对 象 与 赋值 给 charles 的 对 象 内 容 一 样 。 


@ 比较 两 个 对 象 ， 结 果 相 等 ， 这 是 因为 dict 类 的 _eq__ 方法 就 是 这 
样 实现 的 。 


@ 但 它们 是 不 同 的 对 象 。 这 是 Python 说 明 标 识 不 同 的 方式 : a is not 
b 。 


示例 8-3 体现 了 别名 。 在 那 段 代码 中 ，lewis 和 charles 是 别名 ， 即 
两 个 变量 绑 定 同一 个 对 象 。 而 alex 不 是 charles 的 别名 ， 因 为 二 者 绑 
定 的 是 不 同 的 对 象 。alex 和 charles 绑 定 的 对 象 具有 相同 的 值 (== tE 
较 的 就 是 值 ) ， 但 是 它们 的 标识 不 同 。 


Python 语言 参考 手册 中 的 “3.1 Objects, values and types” 一 节 
(https://docs.python.org/3/reference/datamodel.html#objects-values-and- 
types) 说 道 : 


每 个 变量 都 有 标识 、 类 型 和 值 。 对 象 一 旦 创建 ， 它 的 标识 绝 不 会 
变 ; 你 可 以 把 标识 理解 为 对 象 在 内 存 中 的 地 址 。is 运算 符 比 较 两 个 
对 象 的 标识 ; id() 函数 返回 对 象 标识 的 整数 表示 。 


对 象 ID 的 真正 意义 在 不 同 的 实现 中 有 所 不 同 。 在 CPython 中 ，id() i 
回 对 象 的 内 存 地 址 ， 但 是 在 其 他 Python 解释 器 中 可 能 是 别 的 值 。 关 键 
Æ ID 一 定 是 唯一 的 数值 标注 ， 而 且 在 对 象 的 生命 周期 中 绝 不 会 变 。 


其 实 ， 编 程 中 很 少 使 用 id() 函数 。 标 识 最 常 使 用 is 运算 符 检查 ， 而 
不 是 直接 比较 ID。 接 下 来 讨论 is 和 == 的 异同 。 

8.2.1 在 == 和 is 之 间 选 择 

-= 运算 符 比较 两 个 对 象 的 值 (对象 中 保存 的 数据 ) ， 而 is 比较 对 象 的 


标识 。 


通常 ， 我 们 关注 的 是 值 ， 而 不 是 标识 ， 因 此 Python 代码 中 == 出 现 的 频 
率 比 is 高 。 


然而 ， 在 变量 和 单 例 值 之 间 比 较 时 ， 应 该 使 用 is。 目 前 ， 最 常 使 用 is 
检查 变量 绑 定 的 值 是 不 是 None。 下 面 是 推荐 的 写法 : 


x is None 


个 定 的 正确 写法 是 : 


x is not None 


is 运算 符 比 == 速度 快 ， 因 为 它 不 能 重 载 ， 所 以 Python 不 用 寻找 并 调用 
特殊 方法 ， 而 是 直接 比较 两 个 整数 ID。 而 a == b 是 语法 糖 ， 等 同 于 
a. eq_(b)。 继 承 自 object 的 eq 方法 比较 两 个 对 象 的 ID， 结 
RE is 一 样 。 但 是 多 数 内 置 类 型 使 用 更 有 意义 的 方式 畴 盖 了 eq_ 
方法 ， 会 考虑 对 象 属性 的 值 。 相 等 性 测试 可 能 涉及 大 量 处 理工 作 ， 例 
如 ， 比 较 大 型 集合 或 散 套 层级 深 的 结构 时 。 


在 结束 对 标识 和 相等 性 的 讨论 之 前 ， 我 们 来 看 看 著名 的 不 可 变 类 型 
tuple (元 组 ) ， 它 没有 你 想象 的 那么 一 成 不 变 。 

8.2.2 ”元 组 的 相对 不 可 变性 

元 组 与 多 数 Python 集合 (列表 、 字 典 、 集 ， 等 等 ;一样 ， 保 存 的 是 对 象 


MSIF. | 如 果 引 用 的 元 素 是 可 变 的 ， 即 便 元 组 本 身 不 可 变 ， 元 素 依然 
可 变 。 也 就 是 说 ， 元 组 的 不 可 变性 其 实 是 指 tuple 数据 结构 的 物理 内 


容 ( 即 保存 的 引用 ) 不 可 变 ， 与 引用 的 对 象 无 关 。 


| 


1 而 str, bytes 和 array.array 等 单一 类 型 序列 是 扁平 的 ， 它 们 保存 的 不 是 引用 ， 而 是 在 连 
续 的 内 存 中 保存 数据 本 身 (字符 、 字 节 和 数字 )。 


示例 8-5 表明 ， 元 组 的 值 会 随 着 引用 的 可 变 对 象 的 变化 而 变 。 元 组 中 不 
可 变 的 是 元 素 的 标识 。 


示例 8-5 一 开始 ，t1 和 t2 相等 ， 但 是 修改 tl 中 的 一 个 可 变 元 
素 后 ， 二 者 不 相等 了 


>>> t1 = (1, 2, [30, 40]) © 
>>> t2 = (1, 2, [30, 40]) @ 
>>> t1 == t2 

True 

>>> id(t1[-1]) © 

4302515784 


>>> ti[-1].append(99) © 
>>> t1 


(1, 2, [30, 40, 99]) 
>>> id(t1[-1]) © 
4302515784 

>> tl == t2 Q 
False 


Qt AS, 但 是 t1[-1] TÆ. 

O 构建 元 组 t2， 它 的 元 素 与 tl 一 样 。 

© 虽然 tl 和 t2 是 不 同 的 对 象 ， 但 是 二 者 相等 一 一 与 预期 相符 。 
O 查看 t1[-1] 列表 的 标识 。 

O 就 地 修改 t1[-1] 列表 。 

@ t1[-1] 的 标识 没 变 ， 只 是 值 变 了 。 

@ 现在 ，t1 和 t2 不 相等 。 


元 组 的 相对 不 可 变性 解释 了 2.6.1 节 的 谜 题 。 这 也 是 有 些 元 组 不 可 散 列 
(参见 3.1 节 中 的 “什么 是 可 散 列 的 数据 类 型 > 附注 栏 ) 的 原因 。 


复制 对 象 时 ， 相 等 性 和 标识 之 间 的 区 别 有 更 深入 的 影响 。 副 本 与 源 对 象 
相等 ， 但 是 ID 不 同 。 可是， 如 果 对 象 中 包含 其 他 对 象 ， 那 么 应 该 复制 
内 部 对 象 吗 ? 可 以 共 圣 内 部 对 象 蚂 ? 这 些 问题 没有 唯一 的 答案 。 参 见 下 
述 讨论 。 


8.3 ”默认 做 浅 复 制 


复制 列表 (或 多 数 内 置 的 可 变 集合 ) 最 简单 的 方式 是 使 用 内 置 的 类 型 构 
造 方法 。 例 如 : 


>>> 11 = [3, [55, 44], (7, 8, 9)] 
>>> 12 = list(11) 

>>> 12 

[3, [55, 44], (7, 8, 9)] 


>>> 12 == 11 
True 

>> 12 is 11 © 
False 


@ list(11) 创建 11 的 副本 。 
O 副本 与 源 列 表 相 等 。 


O 但 是 二 者 指 代 不 同 的 对 象 。 对 列表 和 其 他 可 变 序列 来 说 ， 还 能 使 用 
简洁 的 12 = 11[:] 语句 创建 副本 。 


然而 ， 构 造 方法 或 [:] 做 的 是 浅 复 制 ( 即 复制 了 最 外 层 容 器 ， 副 本 中 
的 元 素 是 源 容器 中 元 素 的 引用 〉。 如 果 所 有 元 素 都 古 不 可 变 的 ， 那 么 这 
样 没 有 问题 ， 还 能 市 省 内 存 。 但 是 ， 如 果 有 可 变 的 元 素 ， 可 能 就 会 导致 
意 想 不 到 的 问题 。 


在 示例 8-6 中 ， 我 们 为 一 个 包含 为 一 个 列表 和 一 个 元 组 的 列表 做 了 浅 复 
制 ， 然 后 做 了 些 修改 ， 看 看 对 引用 的 对 象 有 什么 影响 。 


A 如 果 你 手头 有 联网 的 电脑 ， 我 强烈 建议 你 在 Python Tutor 网 站 

Chttp://www.pythontutor.com) 中 查看 示例 8-6 的 交互 式 动画 。 写 作 
本 书 时 ， 无 法 直接 链接 pythontutor.com 中 准备 好 的 示例 ， 不 过 这 个 
工具 很 出 色 ， 因 此 值得 花 点 时 间 复 制 粘贴 代码 。 


示例 8-6 ”为 一 个 包含 男 一 个 列表 的 列表 做 浅 复制 ， 把 这 段 代 码 复 
制 粘贴 到 Python Tutor 网 站 中 ， 看 看 动画 效果 


11 = [3, [66, 55, 44], (7, 8, 9)] 
12 = list(11) # 
11.append(100) # 
11[1].remove(55)  # 

print('11:', 11) 


print('12:', 12) 
12[1] += [33, 22] # © 
12[2] += (10, 11) #0 
print('1l1:', 11) 
print('12:', 12) 


@ 12 是 11 的 浅 复 制 副本 。 此 时 的 状态 如 图 8-3 所 示 。 


Frames Objects 


Global frame 


12 


图 8-3: 示例 8-6 执行 12 = list(11) 赋值 后 的 程序 状态 。11 和 12 
指 代 不 同 的 列表 ， 但 是 二 者 引用 同一 个 列表 [66，55，44] 和 元 组 
(7, 8, 9) CERIK H Python Tutor 网 站 生成 ) 

© 把 169 追加 到 11 中 ， 对 12 没有 影响 。 


© 把 内 部 列表 11[1] 中 的 55 删除。 这 对 12 有 影响 ， 因 为 12[1] Pe 


的 列表 与 11[1] 是 同一 个 。 


@ 对 可 变 的 对 象 来 说 ， 如 12[1] 引用 的 列表 ，+= 运算 符 就 地 修改 列 
表 。 这 次 修改 在 11[1] 中 也 有 体现 ， 因 为 它 是 12[1] 的 别名 。 

O 对 元 组 来 说 ，+= 运算 符 创 建 一 个 新 元 组 ， 然 后 重新 绑 定 给 变量 
12[2]。 这 等 同 于 12[2] = 12[2] + (16，11)。 现 在 ，11 和 12 中 最 
后 位 置 上 的 元 组 不 是 同一 个 对 象 。 如 图 8-4 所 示 。 


示例 8-6 的 输出 在 示例 8-7 中 ， 对 象 的 最 终 状 态 如 图 8-4 所 示 。 


示例 8-7 示例 8-6 的 输出 


» 44], (7, 8, 9), 100] 
» 44], (7, 8, 9)] 


» 44, 33, 22], (7, 8, 9), 100] 
» 44, 33, 22], (7, 8, 9, 10, 11)] 


Frames Objects 


Global frame 


图 8-4: 11 和 12 RARS: 二 者 依然 引用 同一 个 列表 对 象 ， 现 在 
列表 的 值 是 [66，44，33，22]， 不 过 12[2] += (10, 11) 创建 一 
个 新 元 组 ， 内 容 是 (7，8，9，16，11)， 它 与 11[2] 引用 的 元 组 
(7，8，9) cK (AH Python Tutor 网 站 生成 ) 


现在 你 应 该 明日 了 ， 浅 复制 容易 操作 ， 但 是 得 到 的 结果 可 能 并 不 是 你 想 
要 的 。 接 下 来 说 明 如 何 做 深 复制 。 


为 任意 对 象 做 深 复制 和 浅 复 制 

浅 复 制 没什么 问题 ， 但 有 时 我 们 需要 的 是 深 复 制 ( 即 副本 不 共享 内 部 对 
象 的 引用 ) 。copy 模块 提供 的 deepcopy 和 copy 函数 能 为 任意 对 象 做 
深 复制 和 浅 复 制 。 


为 了 演示 copy() 和 deepcopy() 的 用 法 ， 示 例 8-8 定义 了 一 个 简单 的 
类 ，Bus。 这 个 类 表示 运载 乘客 的 校车 ， 在 途中 乘客 会 上 车 或 下 车 。 


示例 8-8 校车 乘客 在 途中 上 车 和 下 车 


class Bus: 


def init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] 
else: 
self.passengers = list(passengers) 


def pick(self, name): 
self.passengers.append(name) 


def drop(self, name): 
self.passengers.remove(name) 


接 下 来 ， 在 示例 8-9 中 的 交互 式 控制 台中 ， 我 们 将 创建 一 个 Bus 实例 
Cbus1) 和 两 个 副本 ， 一 个 是 浅 复制 副本 《〈bus2) ， 忆 一 个 是 深 复制 
副本 (bus3) ， 看 看 在 bus1 有 学 生 下 和 车 后 会 发 生 什么 。 


示例 8-9 使 用 copy 和 deepcopy 产生 的 影响 


>>> import copy 


>>> bus1 = Bus(['Alice', 'Bill', 'Claire', 'David']) 
>>> bus2 = copy.copy(bus1) 

>>> bus3 = copy.deepcopy(bus1) 

>>> id(bus1), id(bus2), id(bus3) 

(4301498296, 4301499416, 4301499752) (1) 


>>> bus1.drop('Bill') 

>>> bus2.passengers 

['Alice', 'Claire', 'David'] (2) 

>>> id(bus1.passengers), id(bus2.passengers), id(bus3.passengers) 
(4302658568, 4302658568, 4302657800) 

>>> bus3.passengers 

['Alice', 'Bill', 'Claire', 'David'] © 


@ 使 用 copy 和 deepcopy, #3 个 不 同 的 Bus 实例 。 
© bus1 中 的 'Bill' 下 车 后 ，bus2 中 也 没有 他 了 。 


@ 审查 passengers 属性 后 发 现 ，bus1 和 bus2 共享 同一 个 列表 对 
象 ， 因 为 bus2 是 bust 的 浅 复制 副本 。 


@ bus3 是 busl 的 深 复制 副本 ， 因 此 它 的 passengers 属性 指 代 另 一 
个 列表 。 


注意 ， 一 般 来 说 ， 深 复制 不 是 件 简 单 的 事 。 如 果 对 象 有 循环 引用 ， 那 么 
这 个 朴素 的 算法 会 进入 无 限 循 环 。deepcopy 函数 会 记 住 已 经 复制 的 对 
象 ， 因 此 能 优雅 地 处 理 循 环 引 用 ， 如 示例 8-10 所 示 。 


示例 8-10 循环 引用 : b 引用 a， 然 后 追加 到 a 中 ; deepcopy 会 
想 办 法 复制 a 


>>> a [10, 20] 

>>> b [a, 30] 

>>> a.append(b) 

>>> a 

[10, 20, [[...], 30]] 

>>> from copy import deepcopy 
>>> c = deepcopy(a) 

>>> C 

[10, 20, [[...], 30]] 


此 外 ， 深 复制 有 时 可 能 太 深 了 。 例 如 ， 对 象 可 能 会 引用 不 该 复制 的 外 部 
资源 或 单 例 值 。 我 们 可 以 实现 特殊 方法 copy__() 和 

_ deepcopy ()， 控 制 copy 和 deepcopy 的 行为 ， 详 情 参 见 copy 模 
块 的 文档 Chttp://docs.python.org/3/library/copy.html) 。 


通过 别名 共 孚 对 象 还 能 解释 Python 中 传递 参数 的 方式 ， 以 及 使 用 可 变 类 


型 作为 参数 默认 值 引 起 的 问题 。 接 下 来 讨论 这 些 问题 。 


8.4 ”函数 的 参数 作为 引用 时 


Python 唯一 支持 的 参数 传递 模式 是 共享 传 参 (call by sharing) 。 多 数 面 
问 对 象 语言 都 采用 这 一 模式 ， 包 括 Ruby. Smalltalk 和 Java (Java 的 引 
用 类 型 是 这 样 ， 基 本 类 型 按 值 传 参 ) 。 
共享 传 参 指 函数 的 各 个 形式 参数 获得 实 参 中 各 个 引用 的 副本 。 也 就 是 
说 ， 函 数 内 部 的 形 参 是 实 参 的 别名 。 


这 种 方案 的 结果 是 ， 函 数 可 能 会 修改 作为 参数 传 入 的 可 变 对 象 ， 但 是 无 
法 修改 那些 对 象 的 标识 “ 即 不 能 把 一 个 对 象 蔡 换 成 力 一 个 对 象 )。 未 例 
8-11 中 有 个 简单 的 函数 ， 它 在 参数 上 调用 += 运算 符 。 分 别 把 数字 、 列 
表 和 元 组 传 给 那个 函数 ， 实 际 传 入 的 实 参 会 以 不 同 的 方式 受到 影响 。 


示例 8-11 函数 可 能 会 修改 接收 到 的 任何 可 变 对 象 


>>> def f(a, b): 
eek a += b 
return a 


([1, 2, 3, 4], [3, 4]) 
>>> t = (10, 20) 

>>> u = (30, 40) 

>>> F(t, u) 

(10, 20, 30, 40) 

>> t, uO 

((10, 20), (30, 4@)) 


@ WS x 没 变 。 


四 列表 a 变 了 。 
O 元 组 t 没 变 。 
JAABER 上 问题 是 使 用 可 变 值 作为 默认 值 ， 下 一 节 会 讨 
论 。 
8.4.1 不 要 使 用 可 变 类 型 作为 参数 的 默认 值 
可 选 参数 可 以 有 默认 值 ， 这 是 Python 函数 定义 的 一 个 很 棒 的 特性 ， 这 样 
我 们 的 API 在 进化 的 同时 能 保证 辐 后 兼容 。 然 而 ， 我 们 应 该 避免 使 用 可 
变 的 对 象 作 为 参数 的 默认 值 。 
下 面 在 示例 8-12 中 说 明 这 个 问题 。 我 们 以 示例 8-8 中 的 Bus 类 为 基础 
定义 一 个 新 类 ， HauntedBus， 然 后 修改 _ init 方法。 这 一 
ik, passengers 的 默认 值 不 是 None， 而 是 []， 这 样 就 不 用 像 之 前 那 
样 使 用 if 判断 了 。 这 个 “聪明 的 举动 ”会 让 我 们 陷入 麻烦 。 

示例 8-12 一 个 简单 的 类 ， 说 明 可 变 默认 值 的 危险 


class HauntedBus: 


NUN RSE A TR He A HT HE A Be Ae 


def init__(self, passengers=[]): © 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) © 


def drop(self, name): 
self.passengers.remove(name) 


@ 如 果 没 传 入 passengers 参数 ， 使 用 默认 绑 定 的 列表 对 象 ， 一 开始 
是 空 列 表 。 


四 这 个 赋值 语句 把 self.passengers Æ passengers 的 别名 ， 而 没 
AIRA passengers 参数 时 ， 后 者 又 是 默认 列表 的 别名 。 


© # self.passengers 上 调用 .remove() 和 .append() 方法 时 ， 修 
改 的 其 实 是 默认 列表 ， 它 是 函数 对 象 的 一 个 属性 。 


HauntedBus 的 诡异 行为 如 示例 8-13 所 示 。 
示例 8-13. 备 受 幽灵 乘客 折磨 的 校车 


>>> bus1 = HauntedBus(['Alice', 'Bill']) 
>>> bus1.passengers 
['Alice', 'Bill'] 

>>> bus1.pick('Charlie') 
>>> bus1.drop('Alice') 
>>> bus1.passengers © 
['Bill', ‘Charlie’ ] 

>>> bus2 = HauntedBus() 
>>> bus2.pick('Carrie' ) 
>>> bus2.passengers 
['Carrie' 

>>> bus3 = HauntedBus() 
>>> bus3.passengers 
['Carrie' 

>>> bus3.pick('Dave' ) 
>>> bus2.passengers © 
['Carrie', 'Dave' ] 

>>> bus2.passengers is bus3.passengers @ 
True 

>>> bus1.passengers @ 
['Bill', ‘Charlie’ ] 


@ 日 前 没什么 问题 ，bus1 没有 出 现 异 常 。 


O 一 开始 ，bus2 是 空 的 ， 因 此 把 默认 的 空 列表 赋值 给 


self.passengers. 

© bus3 一 开始 也 是 空 的 ， 因 此 还 是 赋值 默认 的 列表 。 
O 但 是 默认 列表 不 为 空 ! 

© 登 上 bus3 的 Dave 出 现在 bus2 中 。 


@ 问题 是 ，bus2.passengers 和 bus3.passengers 指 代 同一 个 列 
Ro 


@ 但 bus1. passengers 是 不 同 的 列表 。 


问题 在 于 ， 没 有 指定 初始 乘客 的 HauntedBus 实例 会 共享 同一 个 乘客 列 
表 。 


这 种 问题 很 难 发 现 。 如 示例 8-13 所 示 ， 实 例 化 HauntedBus 时 ， 如 采 
传 入 乘客 ， 会 按 预期 运作 。 但 是 不 为 HauntedBus 指定 乘客 的 话 ， 奇 怪 
的 事 就 发 生 了 ， 这 是 因为 self.passengers 变 成 了 passengers 参数 
默认 值 的 别名 。 出 现 这 个 问题 的 根源 是 ， 默 认 值 在 定义 函数 时 计算 〈 通 
常 在 加 载 模块 时 ) ， 因 此 默认 值 变 成 了 函数 对 象 的 属性 。 因 此 ， 如 采 默 
We 而 且 修 改 了 它 的 值 ， 那 么 后 续 的 函数 调用 都 会 受到 影 
Hq] 。 


运行 示例 8-13 中 的 代码 之 后 ， 可 以 审查 HauntedBus. init _ 对 
象 ， 看 看 它 的 _ defaults _ 属性 中 的 那些 幽灵 学 生 : 


>>> dir(HauntedBus. init ) # doctest: +ELLIPSIS 


['_ annotations ', ' call ', ..., ‘defaults ', ... 
>>> HauntedBus. init . defaults _ 
(['Carrie', 'Dave'],) 


最 后 ， 我 们 可 以 验证 bus2.passengers 是 一 个 别名 ， 它 绑 定 到 


HauntedBus. init. defaults 属性 的 第 一 个 元 素 上 : 
>>> HauntedBus. init . defaults [686] is bus2.passengers 
True 


可 变 默 认 值 导致 的 这 个 问题 说 明了 为 什么 通常 使 用 None 作为 接收 可 变 
值 的 参数 的 默认 值 。 在 示例 8-8 F, ”init ”方法 检查 passengers 
参数 的 值 是 不 是 None， 如 果 是 就 把 一 个 新 的 空 列表 赋值 给 
self.passengers。 下 一 节 会 说 明 ， 如 果 passengers 不 是 None， 正 
确 的 实现 会 把 passengers 的 副本 赋值 给 self.passengers。 下 面 详 
解 。 


8.4.2 ”防御 可 变 参 数 
如 果 定 义 的 函数 接收 可 变 参 数 ， 应 该 谨慎 考虑 调用 方 是 否 期 望 修改 传 入 


例如 ， 如 果 函 数 接收 一 个 字典 ， 而 且 在 处 理 的 过 程 中 要 修改 它 ， 那 么 这 
个 副作用 要 不 要 体现 到 函数 外 部 ?具体 情况 具体 分 析 。 这 其 实 需要 函数 
的 编写 者 和 调用 方 达成 共识 。 

在 本 章 最 后 一 个 校车 示例 中 ，TwilightBus 实例 与 客户 共享 乘客 列 
表 ， 这 会 产生 意料 之 外 的 结果 。 在 分 析 实 现 之 前 ， 我 们 先 从 客户 的 角度 
看 看 TwilightBus 类 是 如 何 工 作 的 。 


示例 8-14 从 TwilightBus 下 车 后 ， 乘 客 消失 了 


>>> basketball team = ['Sue', 'Tina', 'Maya', 'Diana', 'Pat'] © 
>>> bus = TwilightBus(basketball team) @ 
>>> bus.drop('Tina') © 


>>> bus.drop('Pat' ) 
>>> basketball team @ 
['Sue', 'Maya', ‘Diana’ ] 


@ basketball_team 中 有 5 个 学 生 的 名 字 。 

O 使 用 这 队 学 生 实例 化 TwilightBus。 

全 一 个 学 生 从 bus 下 车 了 ， 接 着 又 有 一 个 学 生 下 车 了 。 

四 下 车 的 学 生 从 篮球 队 中 消失 了 ! 

TwilightBus 违反 了 设计 接口 的 最 佳 实践 ， 即 “最 少 惊讶 原则 ”。 学 生 从 
a 她 的 名 字 就 从 篮球 队 的 名 单 中 消失 了 ， 这 确实 让 人 惊 
示例 8-15 是 TwilightBus 的 实现 ， 随 后 解释 了 出 现 这 个 问题 的 原因 。 


示例 8-15 一 个 简单 的 类 ， 说 明 接 受 可 变 参 数 的 风险 


class TwilightBus: 
""" 让 乘客 销声匿迹 的 校车 """ 


def _init (self, passengers=None): 
if passengers is None: 


self.passengers = [] © 
else: 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) 


def drop(self, name): 
self.passengers.remove(name) © 


@ 这 里 谨慎 处 理 ， 当 passengers W None 时 ， 创 建 一 个 新 的 空 列 表 。 


四 然而 ， 这 个 赋值 语句 把 self.passengers 变 成 passengers 的 别 
名 ， 而 后 者 是 传 给 ”init __ 方法 的 实 参 〈( 即 示例 8-14 中 的 
basketball team) 的 别名 。 


© £ self.passengers 上 调用 .remove() 和 .append() 方法 其 实 会 
修改 传 给 构造 方法 的 那个 列表 。 


这 里 的 问题 是 ， 校 车 为 传 给 构造 方法 的 列表 创建 了 别名 。 正 确 的 做 法 
是 ， 校 车 自己 维护 乘客 列表 。 修 正 的 方法 很 简单 : 在 ”init _ 中， 传 
入 passengers 参数 时 ， 应 该 把 参数 值 的 副本 赋值 给 
self.passengers， 像 示例 8-8 中 那样 做 〈8.3 节 ) 。 


def _init (self, passengers=None): 
if passengers is None: 
self.passengers = [] 


else: 
self.passengers = list(passengers) © 


rls passengers 列表 的 副本 ; 如 果 不 是 列表 ， 就 把 它 转 换 成 列 


在 内 部 像 这 样 处 理 乘客 列表 ， 就 不 会 影响 初始 化 校车 时 传 入 的 参数 了 。 
此 外 ， 这 种 处 理 方式 还 更 灵活 : 现在 ， 传 给 passengers 参数 的 值 可 以 
是 元 组 或 任何 其 他 可 和 迭代 对 象 ， 例 如 set 对 象 ， 甚 至 数据 库 查 询 结 
因为 list 构造 方法 接受 任何 可 迭代 对 象 。 上 自己 创建 并 管理 列表 可 以 确 
保 支持 所 需 的 .remove() 和 .append() 操作 ， 这 样 .pick() 和 


.drop() 方法 才能 正常 运作 。 


A 除非 这 个 方法 确实 想 修 改 通 过 参数 传 入 的 对 象 ， 否 则 在 类 中 
直接 把 参数 赋值 给 实例 变量 之 前 一 定 要 三 思 ， 因 为 这 样 会 为 参数 对 
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8.5 del 和 垃圾 回收 
a ae eat a ay Nee ee 
回收 。 


一 一 Python 语言 参考 手册 中 “Data Model” 一 章 


del 语句 删除 名 称 ， 而 不 是 对 象 。del 命令 可 能 会 导致 对 象 被 当 作 垃圾 
回收 ， 但 是 仅 当 删 除 的 变量 保存 的 是 对 象 的 最 后 一 个 引用 ， 或 者 无 法 得 
销毁 。 


“如 果 两 个 对 象 相互 引用 ， 像 示例 8-10 那样 ， 当 它们 的 引用 只 存在 二 者 之 间 时 ， 垃 圾 回收 程序 
会 判定 它们 都 无 法 获取 ， 进 而 把 它们 都 销毁 。 


Bx Wh dl 特殊 方法 ， 但 是 它 不 会 销 红 实 例 ， 不 应 该 
代码 中 调用 。 即 将 销毁 实例 时 ，Python 解释 器 会 调用 del Ù 
法 ， 给 实例 最 后 的 机 会 ， 释 放 外 部 资源 。 目 己 编写 的 代码 很 少 需要 
实现 ”del 代码 ， 有 些 Python 新 手 会 花 时 间 实 现 ， 但 却 吃 力 不 
讨好 ， 因 为 _ del ”很 难 用 对 。 详 情 参见 Python 语言 参考 手册 
中 “Data Model” 一 章 中 del _ 特殊 方法 的 文档 
(https://docs.python.org/3/reference/datamodel.html#object. del) 。 


在 CPython "F, SADIE EAS AY EE Se S| TPR. SEP, BED KT 
象 都 会 统计 有 多 少 引 用 指向 自己 。 当 引用 计数 归 零 时 ， 对 象 立 即 就 被 销 
毁 : CPython 会 在 对 象 上 调用 del ”方法 〈 如 果 定 义 了 ) ， 然 后 释放 
分 配给 对 象 的 内 存 。CPython 2.0 增加 了 分 代 垃 圾 回收 算法 ， 用 于 检测 
引用 循环 中 涉及 的 对 象 组 一 一 如 果 一 组 对 象 之 间 全 是 相互 引用 ， 即 使 再 
出 色 的 引用 方式 也 会 导致 组 中 的 对 象 不 可 获取 。Python 的 其 他 实现 有 更 
复杂 的 垃圾 回收 程序 ， 而 且 不 依赖 引用 计数 ， 这 意味 着 ， 对 象 的 引用 数 
量 为 零 时 可 能 不 会 立即 调用 del _ 方法 。A. Jesse Jiryu Davis 写 

的 “PyPy, Garbage Collection, and a Deadlock” 一文 
Chttps://emptysqua.re/blog/pypy-garbage-collection-and-a-deadlock/) 对 
del 方法 的 恰当 用 法 和 不 当 用 法 做 了 讨论 。 


为 了 演示 对 象 生 命 结束 时 的 情形 ， 示 例 8-16 使 用 weakref. finalize 
注册 一 个 回调 函数 ， 在 销毁 对 象 时 调用 。 


示例 8-16 没有 指向 对 象 的 引用 时 ， 监 视 对 象 生命 结束 时 的 情形 


>>> import weakref 
>>> s1 = {1, 2, 3} 
>>> S2 = s1 
>>> def bye(): (2) 
print('Gone with the wind...') 


>>> ender = weakref.finalize(s1, bye) © 
>>> ender.alive © 

True 

>>> del s1 

>>> ender.alive © 

True 

>>> s2 = 'spam' © 

Gone with the wind... 

>>> ender.alive 

False 


Q sl 和 s2 是 别名 ， 指 向 同一 个 集合 ，{1，2，3}。 


O 这 个 函数 一 定 不 能 是 要 销毁 的 对 象 的 绑 定 方法 ， 否 则 会 有 一 个 指向 
对 象 的 引用 。 


O 在 s1 引用 的 对 象 上 注册 bye 回调 。 
@ 调用 finalize 对 象 之 前 ，.alive 属性 的 值 为 True。 
@ 如 前 所 述 ，del 不 删除 对 象 ， 而 是 删除 对 象 的 引用 。 


O 重新 绑 定 最 后 一 个 引用 s2， 让 {1，2，31 无 法 获取 。 对 象 被 销毁 
了 ， 调 用 了 bye 回调 ，ender .alive 的 值 变 成 了 False。 


示例 8-16 的 目的 是 明确 指出 del 不 会 删除 对 象 ， 但 是 执行 del 操作 后 
可 能 会 导致 对 象 不 可 获取 ， 从 而 被 删除 。 


你 可 能 觉得 奇怪 ， 为 什么 示例 8-16 中 的 {1, 2, 3} 对 象 被 销毁 了 ? 毕 
竟 ， 我 们 把 s1 引用 传 给 finalize 函数 了 ， 而 为 了 监控 对 象 和 调用 回 


调 ， 必 须要 有 引用 。 这 是 因为 ，finalize HA {1, 2, 3} 的 弱 引 
用 ， 参 见 下 一 节 。 
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正 是 因为 有 引用 ， 对 象 才 会 在 内 存 中 存在 。 当 对 象 的 引用 数量 归 零 后 ， 
垃圾 回收 程序 会 把 对 象 销毁 。 但 是 ， 有 时 需要 引用 对 象 ， 而 不 让 对 象 存 
在 的 时 间 超 过 所 需 时 间 。 这 经 常用 在 缓存 中 。 


弱 引 用 不 会 增加 对 象 的 引用 数量 。 引 用 的 目标 对 象 称 为 所 指 对 象 
(referent) 。 因 此 我 们 说 ， 弱 引用 不 会 妨碍 所 指 对 象 被 当 作 垃圾 回收 。 


弱 引 用 在 缓存 应 用 中 很 有 用 ， 因 为 我 们 不 想 仪 因为 被 缓存 引用 大 而 始终 
保存 缓存 对 象 。 


示例 8-17 展示 了 如 何 使 用 weakref.ref 实例 获取 所 指 对 象 。 如 果 对 象 
存在 ， 调 用 弱 引 用 可 以 获取 对 象 ， 否则 返回 None. 


AI 示例 8-17 是 一 个 控制 台 会 话 ，Python 控制 台 会 自动 把 “变量 
绑 定 到 结果 不 为 None 的 表达 式 结 果 上 。 这 对 我 想 演示 的 行为 有 影 
响 ， 不 过 却 凸 显 了 一 个 实际 问题 : 微观 管理 内 存 时 ， 往 往 会 得 到 意 
外 的 结果 ， 因 为 不 明显 的 隐 式 赋值 会 为 对 象 创建 新 引用 。 控 制 台 中 
的 _ 变量 是 一 例 。 调 用 跟踪 对 象 也 常 导致 意料 之 外 的 引用 。 


示例 8-17 弱 引 用 是 可 调用 的 对 象 ， 返 回 的 是 被 引用 的 对 象 ， 如果 
所 指 对 象 不 存在 了 ， 返 回 None 


>>> import weakref 

>>> a_set = {0, 1} 

>>> wref = weakref.ref(a_set) © 
>>> wref 


<weakref at 0x10@637598; to 'set' at 0x10@636748> 
>>> wref() 

{@, 1} 

>>> a set = {2, 3, 44 © 

>>> wref() @ 

{@, 1} 

>>> wref() is None © 


False 
>>> wref() is None © 
True 


@ 创建 弱 引 用 对 象 wref， 下 一 行 审查 它 。 


四 调用 wref() 返回 的 是 被 引用 的 对 象 ，{6，1}。 因 为 这 是 控制 台 会 
话 ， 所 以 {6，1} 会 绑 定 给 Be. 


@@ a_set 不 再 指 代 {6，1} 集合 ， 因 此 集合 的 引用 数量 减少 了 。 但 是 _ 
变量 仍然 指 代 它 。 


@ 调用 wref() 依旧 返回 {0, 1}- 


O 计算 这 个 表达 式 时 ，{68，1} 存在 ， 因 此 wref() 不 是 None。 但 是 ， 
随后 “ 绑 定 到 结果 值 False。 现 在 {0, 1} 没有 强 引用 了 。 


O 因为 {06，1} 对 象 不 存在 了 ， 所 以 wref() 返回 None. 


weakref 模块 的 文档 Chttp://docs.python.org/3/library/weakref.html) 指 
itt, weakref.ref 类 其 实 是 低层 接口 ， 供 高 级 用 途 使 用 ， 多 数 程序 最 
好 使 用 weakref 集合 和 finalize。 也 就 是 说 ， 应 该 使 用 
WeakKeyDictionary、WeakValueDictionary、WeakSet 和 
finalize (在 内 部 使 用 弱 引 用 〉 ， 不 要 自己 动手 创建 并 处 理 
weakref.ref 实例 。 我 们 在 示例 8-17 中 那么 做 是 希望 借助 实际 使 用 
weakref.ref 来 褪去 它 的 神秘 色彩 。 但 是 实际 上 ， 多 数 时 候 Python fE 
序 都 使 用 weakref 集合 。 


下 一 节 简 要 讨论 weakref 集合 。 


8.6.1 WeakValueDictionary 人 简介 


WeakValueDictionary 类 实现 的 是 一 种 可 变 映 射 ， 里 面 的 值 是 对 象 的 
弱 引 用 。 被 引用 的 对 象 在 程序 中 的 其 他 地 方 被 当 作 垃圾 回收 后 ， 对 应 的 
键 会 自动 从 WeakValueDictionary 中 删除 。 

Ik, WeakValueDictionary 经 常用 于 缓存 。 


我 们 对 WeakValueDictionary 的 演示 受到 来 自 英 国 六 人 喜剧 团体 
Monty Python 的 经 典 短 剧 《 奶 酷 店 》 的 启发 ， 在 那 出 短 剧 里 ， 客 户 问 了 
40 多 种 奶酪， 包括 切 达 王 酷 和 马 苏 里 拉 奶 酷 ， 但 是 都 没有 货 。?3 


3cheeseshop.python.org 还 是 PyPI (Python Package Index 软件 仓库 ) 的 别名 ， 一 开始 里 面 
什么 也 没有 。 写 作 本 书 时 ，Python Cheese Shop 中 有 41 426 个 包 。 还 不 错 ， 但 是 与 有 131 000 
个 模块 的 CPAN (Comprehensive Perl Archive Network) 相 比 ， 还 差 得 远 。 所 有 动态 语言 社区 都 
was CPAN 中 有 那么 多 模块 。 


示例 8-18 实现 一 个 简单 的 类 ， 表 示 各 种 奶 酷 。 
示例 8-18 Cheese 有 个 kind 属性 和 标准 的 字符 串 表 示 形 式 


class Cheese: 


def _init (self, kind): 
self.kind = kind 


def _repr (self): 
return 'Cheese(%r)' % self.kind 


在 示例 8-19 中 ， 我 们 把 catalog 中 的 各 种 奶酪 载 入 
WeakValueDictionary 实现 的 stock 中 。 人 然而， 删除 catalog 

Ja, stock 中 只 剩 下 一 种 奶 栈 了 。 你 知道 为 什么 帕尔马 干 酷 
a 比 其 他 奶酪 保存 的 时 间 长 吗 ? 4 代码 后 面 的 提示 中 有 答 


AN o 


TEX PRE LR EERE, AEE e RA ER ET TAS. (LAE, IRE 
我 们 想 要 的 答案 。 


示例 8-19 顾客 :“ 你 们 店 里 到 克 有 没有 奶酪 ? ” 


>>> import weakref 

>>> stock = weakref.WeakValueDictionary() @ 

>>> catalog = [Cheese('Red Leicester'), Cheese('Tilsit'), 
Cheese('Brie'), Cheese('Parmesan' ) ] 


>>> for cheese in catalog: 
stock[cheese.kind] = cheese @ 


>>> sorted(stock.keys()) 

['Brie', 'Parmesan', 'Red Leicester’, 'Tilsit'] © 
>>> del catalog 

>>> sorted(stock.keys()) 

['Parmesan'] © 

>>> del cheese 


>>> sorted(stock.keys()) 
[] 


@ stock 是 WeakValueDictionary 实例 。 
四 stock 把 奶 栈 的 名 称 映 射 到 catalog 中 Cheese 实例 的 弱 引 用 上 。 
© stock 是 完整 的 。 


@ 删除 catalog 之 后 ，stock 中 的 大 多 数 奶 酷 都 不 见 了 ， 这 是 
WeakValueDictionary 的 预期 行为 。 为 什么 不 是 全 部 呢 ? 


nd 临时 变量 引用 了 对 象 ， 这 可 能 会 导致 该 变量 的 存在 时 间 比 预 
期 长 。 通 常 ， 这 对 局 部 变量 来 说 不 是 问题 ， 因 为 它们 在 函数 返回 时 
会 被 销毁 。 但 是 在 示例 8-19 F, for 循环 中 的 变量 cheese 是 全 局 
变量 ， 除 非 显 式 删除 ， 否 则 不 会 消失 。 


与 WeakValueDictionary 对 应 的 是 WeakKeyDictionary， 后 者 的 键 

是 弱 引 用 。weakref.WeakKeyDictionary 的 文档 
(https://docs.python.org/3/library/weakref.html? 

highlight=weakre 傣 weakref.WeakKeyDictionary〉 指 出 了 一 些 可 能 的 用 途 : 


(WeakKeyDictionary 实例 ) 可 以 为 应 用 中 其 他 部 分 拥有 的 对 象 
附加 数据 ， 这 样 就 无 需 为 对 象 添 加 属性 。 这 对 履 盖 属性 访问 权限 的 
对 象 尤 其 有 用 。 


weakref 模块 还 提供 了 WeakSet 类 ， 按 照 文档 的 说 明 ， 这 个 类 的 作用 
很 简单 :“ 保 存 元 素 弱 引 用 的 集合 类 。 元 素 没 有 强 引 用 时 ， 集 合 会 把 它 
删除 。” 如 果 一 个 类 需要 知道 所 有 实例 ， 一 种 好 的 方案 是 创建 一 个 
WeakSet 类 型 的 类 属性 ， 保 存 实例 的 引用 。 如 果 使 用 常规 的 set， 实 例 
永远 不 会 被 垃圾 回收 ， 因 为 类 中 有 实例 的 强 引 用 ， 而 类 存在 的 时 间 与 
Python 进程 一 样 长 ， 除 非 显 式 删除 类 。 


这 些 集 合 ， 以 及 一 般 的 弱 引 用 ， 能 处 理 的 对 象 类 型 有 限 。 参 见 下 一 市 的 


说 明 。 


8.6.2 555] HEY fa PR 


不 是 每 个 Python 对 象 部 可 以 作为 弱 引 用 的 目标 (或 称 所 指 对 象 ) 。 基 本 
A list Al dict 实例 不 能 作为 所 指 对 象 ， 但 是 它们 的 子 类 可 以 轻松 地 
解决 这 个 问题 : 


class MyList(list): 
"""1ist 的 子 类 ， 实 例 可 以 作为 弱 引用 的 目标 """ 


a_list = MyList(range(10)) 


# a_list 可 以 作为 弱 引 用 的 目标 


wref to a list = weakref.ref(a list) 


set 实例 可 以 作为 所 指 对 象 ， 因 此 实例 8-17 才 使 用 set 实例 。 用 户 定 
义 的 类 型 也 没 问 题 ， 这 束 解 释 了 示例 8-19 中 为 什么 使 用 那个 简单 的 
Cheese 类 。 但 是 ，int 和 tuple 实例 不 能 作为 弱 引 用 的 目标 ， 甚 至 它 
们 的 子 类 也 不 行 。 


这 些 局 限 基本 上 是 CPython 的 实现 细节 ， 在 其 他 Python 解释 器 中 情况 可 
能 不 一 样 。 这 些 局 限 是 内 部 优化 导致 的 结果 ， 下 一 节 会 以 其 中 几 个 类 型 
为 例 讨论 (完全 选读 ) 。 


8.7 ”Python 对 不 可 变 类 型 施加 的 把 戏 


LN 你 可 以 放心 跳 过 本 市 。 这 里 讨论 的 是 Python 的 实现 细节 ， 对 
Python 用 户 来 说 没 那 么 重要 。 这 些 细 市 是 CPython 核心 开发 者 走 的 
捷径 和 做 的 优化 措施 ， 对 这 门 语言 的 用 户 而 言 无 需 了 解 ， 而 且 那 些 
细节 对 其 他 Python 实现 可 能 没 用 ，CPython 未 来 的 版 本 可 能 也 不 会 
用 。 尽 管 如 此 ， 在 学 习 别 名 和 副本 的 过 程 中 ， 你 可 能 偶然 见 过 这 些 
把 戏 ， 因 此 我 党 得 有 必要 讲 一 下 。 


我 惊讶 地 发 现 ， 对 元 组 七 来 说 ，tf[ : ] 不 创建 副本 ， 而 是 返回 同一 个 对 
象 的 引用 。 此 外 ，tuple(t) 获得 的 也 是 同一 个 元 组 的 引用 。5 示例 8- 
20 证 明了 这 一 点 。 


5 文档 明确 指出 了 这 个 行为 。 在 Python 控制 台中 输入 help(tuple)， 你 会 看 到 这 句 话 : “如果 
参数 是 一 个 元 组 ， 那 么 返回 值 是 同一 个 对 象 。” 撰 写 这 本 书 之 前 ， 我 还 以 为 自己 对 元 组 无 所 不 
知 。 


示例 8-20 ”使 用 另 一 个 元 组 构建 元 组 ， 得 到 的 其 实 是 同一 个 元 组 


>>> t1 = (1, 2, 3) 
>>> t2 = tuple(t1) 
>>> t2 is t1 


True 

>>> t3 = t1[:] 
>> t3 is t1 @ 
True 


@ tl 和 t2 绑 定 到 同一 个 对 象 。 
@ t3 也 是 。 


str、bytes 和 frozenset 实例 也 有 这 种 行为 。 注 意 ，frozenset 实 

例 不 是 序列 ， 因 此 不 能 使 用 fs[:] (fs 是 一 个 frozenset 实例 ) 。 但 
是 ，fs.copy() 具有 相同 的 效果 : 它 会 欺骗 你 ， 返 回 同一 个 对 象 的 引 

用 ， 而 不 是 创建 一 个 副本 ， 如 示例 8-21 Fras. © 


Scopy 方法 不 会 复制 所 有 对 象 ， 这 是 一 个 善意 的 谎言 ， 为 的 是 接口 的 兼容 性 ; 这 使 得 
frozenset 的 兼容 性 比 set 强 。 两 个 不 可 变 对 象 是 同一 个 对 象 还 是 副本 ， 反 正 对 最 终 用 户 来 
说 没有 区 别 。 


示例 8-21 字符 串 字 面 量 可 能 会 创建 共享 的 对 象 


@ 新 建 一 个 元 组 。 

Ø t1 和 t3 相等 ， 但 不 是 同一 个 对 象 。 

O 再 新 建 一 个 字符 串 。 

O 奇怪 的 事 发 生 了 ，a 和 b 指 代 同 一 个 字符 串 。 


共享 字符 串 字 面 量 是 一 种 优化 措施 ， 称 为 驻 留 (interning) 。CPython 还 
会 在 小 的 整数 上 使 用 这 个 优化 措施 ， 防 止 重复 创建 "热门 数字， 如 
0、-1 和 42。 注 意 ，CPython 不 会 驻 留 所 有 字符 串 和 整数 ， 驻 留 的 条 件 
是 实现 细节 ， 而 且 没 有 文档 说 明 。 


Bes a Oy a paarrs 留 ! 比较 字符 串 或 整数 是 
相等 时 ， 应 该 使 用 == 而 不 是 is. TE 留 是 Python a 
的 一 个 特性 。 


本 节 讨 论 的 把 戏 ， 包 括 frozenset.copy() 的 行为 ， 是 “善意 的 谎言 ”， 
能 闻 省 内 存 ， 提 升 解释 器 的 速度 。 别 担心 ， 它 们 不 会 为 你 带 来 任何 底 
烦 ， 因 为 只 有 不 可 变 类 型 会 受到 影响 。 或 许 这 些 细 枝 术 节 的 最 佳 用 途 是 
与 其 他 Python 程序 员 打 赌 ， 提 高 自己 的 胜算 。 


8.8 ”本 间 小 结 
每 个 Python 对 象 都 有 标识 、 类 型 和 值 。 只 有 对 象 的 值 会 不 时 变化 。7 


7 其实 ， 对 象 的 类 型 也 可 以 变 ， 方 法 只 有 一 种 : 为 _ class_ _ 属性 指定 其 他 类 。 但 这 是 在 作 
恶 ， 我 后 悔 加 上 这 个 脚注 了 。 


如 果 两 个 变量 指 代 的 不 可 变 对 象 上 具有 相同 的 值 (a == b A True) ， 实 
际 上 它们 指 代 的 是 副本 还 是 同一 个 对 象 的 别名 基本 没什么 关系 ， 因 为 不 
可 变 对 象 的 值 不 会 变 ， 但 有 一 个 例外 。 这 里 说 的 例外 是 不 可 变 的 集合 ， 
如 元 组 和 frozenset: 如 果 不 可 变 集 合 保存 的 是 可 变 元 素 的 引用 ， 那 么 
可 变 元 素 的 值 发 生变 化 后 ， 不 可 变 集 合 也 会 随 之 改变 。 实 际 上 ， 这 种 情 
况 不 是 很 常见 。 不 可 变 集 合 不 变 的 是 所 含 对 象 的 标识 。 


变量 保存 的 是 引用 ， 这 一 点 对 Python 编程 有 很 多 实际 的 影响 。 
。 简单 的 赋值 不 创建 副本 。 


。 对 += 或 *= 所 做 的 增 量 赋值 来 将， 如 果 左 边 的 变量 绑 定 的 是 不 可 变 
对 象 ， 会 创建 新 对 象 ， 如 采 是 可 变 对 象 ， 会 就 地 修改 。 


。 为 现 有 的 变量 赋予 新 值 ， 不 会 修改 之 前 绑 定 的 变量 。 这 叫 重新 绑 
定 : 现在 变量 绑 定 了 其 他 对 象 。 如 果 变 量 是 之 前 那个 对 象 的 最 后 一 
个 引用 ， 对 象 会 被 当 作 垃圾 回收 。 


© 子 数 的 参数 以 别名 的 形式 传递 ， 这 意味 着 ， 函 数 可 能 会 修改 通过 参 
数 传 入 的 可 变 对 象 。 这 一 行为 无 法 避免 ， 除 非 在 本 地 创建 副本 ， 或 
者 使 用 不 可 变 对 象 ( 例 如 ， 传 入 元 组 ， 而 不 传 入 列表 ) 。 


。 使 用 可 变 类 型 作为 函数 参数 的 默认 值 有 危险 ， 因 为 如 果 束 地 修改 了 
参数 ， 默 认 值 也 就 变 了 ， 这 会 影响 以 后 使 用 默认 值 的 调用 。 


在 CPython 中 ， 对 象 的 引用 数量 归 零 后 ， 对 象 会 被 立即 销毁 。 如 果 除 了 
循环 引用 之 外 没有 其 他 引用 ， 两 个 对 象 都 会 被 销毁 。 某 些 情况 下 ， 可 能 
需要 保存 对 象 的 引用 ， 但 不 留存 对 象 本 身 。 例 如 ， 有 一 个 类 想 要 记录 所 
有 实例 。 这 个 需求 可 以 使 用 弱 引用 实现 ， 这 是 一 种 低层 机 制 ， 是 


weakref fai WeakValueDictionary. WeakKeyDictionary 和 
WeakSet 等 有 用 的 集合 类 ， 以 及 finalize 函数 的 底层 文 持 。 


8.9 ”延伸 阅读 


Python 语言 参考 手册 中 “Data Model” — # 
(https://docs.python.org/3/reference/datamodel.html〉 的 开头 清楚 解释 了 对 
象 的 标识 和 值 。 


“Python 核心 系列 ”图 书 的 作者 Wesley Chun 在 OSCON 2013 做 了 一 场 精 
彩 的 演讲 ， 涵 盖 了 本 章 讨 论 的 很 多 话题 。 在 “Python 103: Memory Model 
& Best Practices” 演 讲 页 面 
(http://conferences.oreilly.conm/oscon/oscon2013/public/schedule/detail/2937 
可 以 下 载 幻灯 片 。Wesley 在 EuroPython 2011 还 做 过 一 次 更 长 的 演讲 
(YouTube 视频 : https://www.youtube.com/watch?v=HHFCFJSPWrl) , 不 
仪 涵盖 了 本 章 的 主题 ， 还 讨论 了 特殊 方法 的 使 用 。 


Doug Hellmann 写 了 一 长 串 精 彩 的 博客 文章 ， 题 为 “Python Module of the 
Week”(http://pymotw.com) ，$ 后 来 集结 成 书 ， 即 《Python 标准 库 》。 
他 写 的 “copy - Duplicate Objects” (http://pymotw.com/2/copy/) > 

和 “weakref - Garbage-Collectable References to 

Objects” Chttp://pymotw.com/2/weakref/) 19 两 篇 文章 涵盖 了 本 章 讨 论 的 
部 分 话题 。 


8 原来 是 基于 Python 2 的 (httpsWpymotw.com/2/) ， 现 在 已 经 改 为 基于 Python 
3 Chttps://pymotw.con/3/) 。 编者 注 


?新 的 版 本 基于 Python 3 Chttps://pymotw.com/3/copy/) 。 编者 注 


1 新 的 版 本 基于 Python 3， 并 改名 为 “weakref - Impermanent References to 
Objects” Chttps://pymotw.com/3/weakref/) 。 编者 注 


关于 CPython 分 代 垃 圾 回收 程序 的 更 多 信息 ， 请 参阅 gc 模块 的 文档 
Chttps://docs.python.org/3/library/gc.html) 。 文 档 开 头 的 第 一 句 话 

是 :“ 这 个 模块 为 可 选 的 垃圾 回收 程序 提供 接口 。”“ 可 选 的 ”这 个 修饰 词 
可 能 让 人 惊讶 ， 不 过 “Data Model” 一 章 
Chttps://docs.python.org/3/reference/datamodel.html) 也 说 : 


垃圾 回收 可 以 延缓 实现 ， 或 者 完全 不 实现 一 一 如 何 实现 垃圾 回收 是 


实现 的 质量 问题 ， 只 要 不 把 还 能 获得 的 对 象 给 回收 了 就 行 。 


Fredrik Lundh《〈 很 多 核心 库 的 创建 者 ， 如 ElementTree. Tkinter 和 图 像 库 
PIL) 写 了 一 篇 短文 ， 谈 论 了 Python 的 垃圾 回收 程序 ， 题 为 "How Does 
Python Manage Memory?” Chttp://effbot.org/pyfaq/how-does-python-manage- 
memory.htm) 。 他 强调 垃圾 回收 程序 是 一 种 实现 的 特性 ， 其 行为 在 不 同 
的 Python 解释 器 中 有 所 不 同 。 例 如 ，Jython 用 的 是 Java 垃圾 回收 程序 。 


CPython 3.4 改进 了 处 理 有 del ”方法 的 对 象 的 方式 ， 参 见 “"PEP 442 
一 Safe object finalization” Chttps://www.python.org/dev/peps/pep- 
0442/) 。 


维基 百科 中 有 一 篇 文章 讲解 了 字符 串 驻 留 
(https://en.wikipedia.org/wiki/String interning) ， 那 篇 文章 提 到 了 几 种 话 
言 对 这 个 技术 的 利用 ， 包 括 Python. 


杂谈 


平等 对 待 所 有 对 象 


RIL Python 之 前 ， 我 学 过 Java。 我 一 直觉 得 Java 的 == 运算 符 用 着 
不 舒服 。 程 序 员 关注 的 基本 上 是 相等 性 ， 而 不 是 标识 ， 但 是 Java 

的 == 运算 符 比 较 的 是 对 象 〈 不 是 基本 类 型 ) 的 引用 ， 而 不 是 对 象 
的 值 。 就 算是 比较 字符 串 这 样 的 基本 操作 ，Java 也 强制 你 使 用 
.equals 方法 。 尽 管 如 此 ，.equals 方法 还 有 另 一 个 问题 : 如 果 编 
写 a.equals(b)， 而 a 是 null,， 会 得 到 一 个 空 指针 异常 。Java 设 
A + 运算 符 ， 那 为 什么 不 把 == 也 重 载 


Python 采取 了 正确 的 方式 。== 运算 符 比 较 对 象 的 值 ， 而 is 比较 引 
用 。 此 外 ，Python 文 持 重 载运 算 符 ，== 能 正确 处 理 标 准 库 中 的 所 

有 对 象 ， 包 括 None 一 一 这 是 一 个 正常 的 对 象 ， 与 Java 的 null 不 
同 。 


当然 ， 你 可 以 在 上 自己 的 类 中 定义 _eq__ 方 法， 决定 == 如 何 比 较 
实例 。 如 果 不 履 盖 __eq__ 方法 ， 那 么 从 object 继承 的 方法 比较 
i ID， 因 此 这 种 后 备 机 制 认为 用 户 定义 的 类 的 各 个 实例 是 不 
同 的 。 


1998 年 9 月 的 一 个 下 午 ， 读 完 Python 教程 后 ， 考 虑 到 这 些 行 为 ， 
我 立即 就 从 Java 转 到 Python 了 。 


可 变性 


如 果 所 有 Python 对 象 都 是 不 可 变 的 ， 那 么 本 章 束 没有 存在 的 必要 
了 。 处 理 不 可 变 的 对 象 时 ， 变 量 保存 的 是 真正 的 对 象 还 是 共享 对 象 
的 引用 无 关 紧 要 。 如 果 a == b 成 立 ， 而 且 两 个 对 象 都 不 会 变 ， 那 
么 它们 就 可 能 是 相同 的 对 象 。 这 王 是 为 什么 字符 串 可 以 安全 使 用 驻 
留 。 仅 当 对 象 可 变 时 ， 对 象 标 识 才 重 要 。 


在 “ 纯 ” 函 数 式 编程 中 ， 所 有 数据 都 是 不 可 变 的 ， 如 果 为 集合 妃 加 元 
素 ， 那 么 其 实 会 创建 新 的 集合 。 然 而 ，Python 不 是 函数 式 语言 ， 更 
别提 纯 不 纯 了 。 在 Python 中 ， 用 户 定 义 的 类 ， 其 实例 默认 可 变 《〈 多 
数 面向 对 象 语 言 都 是 如 此 ) 。 自 己 创建 对 象 时 ， 如 果 需 要 不 可 变 的 
对 象 ， 一 定 要 格外 小 心 。 此 时 ， 对 象 的 每 个 属性 都 必须 是 不 可 变 
的 ， 否 则 会 出 现 类 似 元 组 那 种 行为 :， 元 组 本 号 不 可 变 ， 但 是 如 条 里 
面 保存 着 可 变 对 象 ， 那 么 元 组 的 值 可 能 会 变 。 


可 变 对 象 还 是 导致 多 线程 编程 难以 处 理 的 主要 原因 ， 因 为 东 个 线程 
改动 对 象 后 ， 如 果 不 正确 地 同步 ， 那 就 会 损坏 数据 。 但 是 过 上 度 同 步 
又 会 导致 死 锁 。 


对 象 析 构 和 垃圾 回收 


Python 没有 和 直接 销 虹 对 象 的 机 制 ， 这 一 琉 漏 其 实 是 一 个 好 的 特性 : 
如 果 随 时 可 以 销毁 对 象 ， 那 么 指 癌 对 象 的 强 引 用 怎么 办 ? 


CPython 中 的 垃圾 回收 主要 依靠 引用 计数 ， 这 容易 实现 ， 但 是 遇 到 
引用 循环 容易 泄露 内 存 ， 因 此 CPython 2.0 (2000 年 10 月 发 布 ) X 
现 了 分 代 垃 圾 回收 程序 ， 它 能 把 引用 循环 中 不 可 获取 的 对 象 销毁 。 


但 是 引用 计数 仍然 作为 一 种 基准 存在 ， 一 旦 引用 数量 归 零 ， 就 立即 
销毁 对 象 。 这 意味 着 ， 在 CPython 中 ， 这 样 写 是 安全 的 (至 少 目 前 
如 此 ) : 


open('test.txt', ‘wt', encoding='utf-8').write('1, 2, 3') 


这 行 代码 是 安全 的 ， 因 为 文件 对 象 的 引用 数量 会 在 write 方法 返 

回 后 归 零 ，Python 在 销毁 内 存 中 表示 文件 的 对 象 之 前 ， 会 立即 关闭 
文件 。 然 而 ， 这 行 代码 在 Jython 或 IronPython 中 却 不 安全 ， 因 为 它 
们 使 用 的 是 宿主 运行 时 (Java VM 和 NET CLR) 中 的 垃圾 回收 程 
序 ， 那 些 回收 程序 更 复杂 ， 但 是 不 依靠 引用 计数 ， 而 且 销 毁 对 象 和 
关闭 文件 的 时 间 可 能 更 长 。 在 任何 情况 下 ， 包 括 CPython， 最 好 显 
式 关 闭 文 件 ， 而 关闭 文件 的 最 可 靠 方 式 是 使 用 with 语句 ， 它 能 保 
证 文件 一 定 会 被 关闭 ， 即 使 打开 文件 时 抛 出 了 异常 也 无 妨 。 使 用 

with， 上 述 代 码 片 段 变 成 了 : 


with open('test.txt', ‘wt', encoding='utf-8') as fp: 


fp.write('1, 2, 3') 


如 果 对 垃圾 回收 程序 感 兴趣 ， 可 以 阅读 Thomas Perl 的 论 

X, “Python Garbage Collector Implementations: CPython, PyPy and 
GaS” (https://thp.io/2012/python-gc/python ge final 2012-01- 
22.pdf) 。 就 是 从 那 篇 论文 中 ， 我 得 知 在 CPython 中 

open() .write() 是 安全 的 。 


参数 传递 : 共享 传 参 


解释 Python 中 参数 传递 的 方式 时 ， 人 们 经 常 这 样 说 :“ 参 数 按 值 传 
递 ， 但 是 这 里 的 值 是 引用 。” 这 么 说 没 错 ， 但 是 会 引起 误解 ， 因 为 
在 旧式 语言 中 ， 最 常用 的 参数 传递 模式 有 按 值 传递 (函数 得 到 参数 
的 副本 〉 和 按 引 用 传递 《函数 得 到 参数 的 指针 ) 。 在 Python 中 ， 
函数 得 到 参数 的 副本 ， 但 是 参数 始终 是 引用 。 因 此 ， 如 果 参 数 引 用 
的 是 可 变 对 象 ， 那 么 对 象 可 能 会 被 修改 ， 但 是 对 象 的 标识 不 变 。 此 
外 ， 因 为 函数 得 到 的 是 参数 引用 的 副本 ， 所 以 重新 绑 定 对 函数 外 部 
没有 影响 。 读 过 《程序 设计 语言 实践 之 路 (第 3 

Hi) ) H (Michael L. Scott 著 ) 之 后 ， 尤 其 是 8.3.1 节 “ 参 数 模式 ”， 
我 决定 采用 共享 传 参 (call by sharing) 这 个 说 法 。 


爱丽 丝 和 白 骑 士 天 于 那 首 歌 的 对 话 完 整 版 


我 喜欢 这 段 对 话 ， 但 是 放 在 一 章 的 开头 太 长 了 。 下 面 是 天 于 白 骑 士 
那 首 歌 的 完整 对 话 ， 谈 到 了 曲名 和 得 名 的 毕 由 。 


“你 不 开心 ，”* 白 骑士 用 一 种 忧虑 的 声调 说 , “让 我 给 你 唱 一 首 
歌 安 慰 你 吧 


“ 那 首 歌 很 长 吗 ? ”爱丽 ， 因 为 这 一 天 她 已 经 听 过 许多 诗 


是 很 长 ，” 日 骑士 说 ,，“ 不 过 它 非常 、 非 常 美 。 不 论 谁 听 到 我 
或 者 是 听 得 热泪 鳃 眶 ， 或 者 是 一 一 ” 


“或 者 是 什么 蚜 ?” 爱 ， 因 为 白 骑士 忽然 黎 住 不 言语 


“或 者 是 没有 热泪 鱼 眶 ， 你 知道 。 这 首 歌 的 曲名 叫 作 : 《 黑 线 
鳃 的 眼睛 》。” 


“ 哦 ， 那 是 一 首 歌 的 曲名 ， 是 吗 ? ”爱丽 丝 问 道 ， 她 试 着 使 自己 
感到 有 兴趣 


“不 ， 你 不 明白 ，” 白 骑士 说 ， 看 来 有 些 心烦 的 样子 < 那 是 人 家 
这 么 叫 的 曲名 。 


真正 的 曲名 是 《 老 而 又 老 的 老头 儿 》。” 


“那么 我 刚才 应 该 说 ,“ 那 首 歌 是 那么 被 人 叫 的 '? ”爱丽 丝 自 己 
纠正 说 。 


“不 ， 你 pas 这 是 另 一 码 事 ! 这 首 歌 人 家 叫 作 《 方 
法 和 手段 》。 不 过 这 只 不 过 是 人 家 这 样 叫 ， 你 知道 ! ” 


“ 喝 ， 那 么 ， 那 完 竟 是 什么 歌 呢 ? ”爱丽 丝 问 道 ， 她 这 一 次 完 完 
全 全 给 弄 糊涂 了 。 

“我 正 是 准备 说 的 呀 ，” 白 骑士 说 道 , “这 首 歌 真正 是 《 坐 在 大 
JE); 曲子 是 我 自己 发 明 的 。” 


《爱丽 丝 镜 中 奇遇 记 》， 第 8 章 “ 这 是 我 自己 的 发 明 ” 


也 该 书 英文 版 〈 书 名 : Programming Language Pragmatics) 在 2015 年 12 月 已 出 第 4 版 。 
编者 注 


第 9 章 符合 Python 风格 的 对 象 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。1 


Ian Bicking 
pip. virtualenv 和 Paste 等 项 目的 创建 者 


1 摘自 Paste 的 风格 指南 Chttp://pythonpaste.org/StyleGuide.html) 。 


feat Python 数据 模型 ， 目 定义 类 型 的 行为 可 以 像 内 置 类 型 那样 目 然 。 
实现 如 此 自然 的 行为 ， 靠 的 不 是 继承 ， 而 是 鸭子 类 型 〈ducktyping) : 
我 们 只 需 按照 预定 行为 实现 对 象 所 需 的 方法 即 可 。 


前 一 章 分 析 了 很 多 内 置 对 象 的 结构 和 行为 ， 这 一 章 则 目 己 定义 类 ， 而 且 
让 类 的 行为 跟 真 正 的 Python 对 象 一 样 。 


这 一 章 接 续 第 1 革 ， 说 明 如 何 实现 在 很 多 Python 类 型 中 常见 的 特殊 方 
TE 


ANS LP he: 
。 文 持 用 于 生成 对 象 其 他 表示 形式 的 内 置 函 数 〈 如 


repr()、bytes()， 等 等 ) 
e 使 用 一 个 类 方法 实现 备 选 构造 方法 
e 扩展 内 置 的 format() 函数 和 str.format() 方法 使 用 的 格式 微 语 


ll 


实现 只 读 属性 
。 把 对 象 变 为 可 散 列 的 ， 以 便 在 集合 中 及 作为 dict 的 键 使 用 
。 利 用 slots _ 节省 内 存 

我 们 将 开发 一 个 简单 的 二 维 欧 几 里 得 向 量 类 型 ， 在 这 个 过 程 中 涵盖 上 述 


全 部 话题 。 

在 实现 这 个 类 型 的 中 间 阶 段 ， 我 们 会 讨论 两 个 概念 : 
。 如 何以 及 何 时 使 用 @classmethod 和 @staticmethod 装饰 器 
e Python 的 私有 属性 和 受 保护 属性 的 用 法 、 约 定 和 局 限 

我 们 从 对 象 表 示 形 式 函 数 开始 。 


91 对象 表示 形式 


每 门面 癌 对 象 的 语言 至 少 都 有 一 种 获取 对 象 的 字符 串 表 示 形 式 的 标准 方 
式 。Python 提供 了 两 种 方式 。 


repr() 

以 便于 开发 者 理解 的 方式 返回 对 象 的 字符 串 表 示 形 式 。 
str() 

以 便于 用 户 理解 的 方式 返回 对 象 的 字符 串 表 示 形 式 。 


正如 你 所 知 ， 我 们 要 实现 ”repr 和 _ str _ 特殊 方法 ， 为 repr() 
和 str() 提供 文 持 。 


为 了 给 对 象 提供 其 他 的 表示 形式 ， 还 会 用 到 另外 两 个 特殊 方 
YE: bytes 和 format 。 bytes 方法 与 _str AYER 
似 : bytes() 函数 调用 它 获 取 对 象 的 字 节 序列 表示 形式 。 而 

_ format _ 方法 会 被 内 置 的 format() 函数 和 str.format() 方法 调 
用 ， 使 用 特殊 的 格式 代码 显示 对 象 的 字符 串 表 示 形 式 。 我 们 将 在 下 一 个 
示例 中 讨论 bytes 方法 ， 随 后 再 讨论 ”format _ 方法 。 


Re 如 果 你 是 从 Python 2 转 过 来 的 ， 记 住 ， 在 Python 3 

中 ， 、_str 和 format _ 都 必须 返回 Unicode F 
符 串 〈str 类 只 有 bytes ”方法 应 该 返回 字 节 序列 
pds oa 


92 ”再 谈 问 量 类 

为 了 说 明 用 于 生成 对 象 表示 形式 的 众多 方法 ， 我 们 将 使 用 一 个 
Vector2d 类 ， 它 与 第 1 章 中 的 类 似 。 这 一 节 和 接 下 来 的 几 节 会 不 断 实 
现 这 个 类 。 我 们 期 望 Vector2d 实例 具有 的 基本 行为 如 示例 9-1 所 示 。 


示例 9-1 Vector2d 实例 有 多 种 表示 形式 


>>> v1 = Vector2d(3, 4) 
>>> print(v1.x, v1.y) © 


Vector2d(3.0, 4.0) 

>>> v1 clone = eval(repr(v1)) @ 

>>> v1 == v1 clone © 

True 

>>> print(v1) © 

(3.0, 4.0) 

>>> octets = bytes(v1) @ 

>>> octets 
b'd\\x00\\x00\\x80\\x00\\x80\\x80\\xO8@\\x80\\xe0\\x80\\x80\\x80\\xe0\\x1E@' 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector2d(@, 0)) © 


Q Vector2d 实例 的 分 量 可 以 直接 通过 属性 访问 (无 需 调用 读 值 方 
TE) 


© Vector2d 实例 可 以 拆 包 成 变量 元 组 。 


© repr 函数 调用 Vector2d 实例 ， 得 到 的 结果 类 似 于 构建 实例 的 源 
码 。 


@ 这 里 使 用 eval 函数 ， 表 明 repr 函数 调用 Vector2d 实例 得 到 的 是 
对 构造 方法 的 准确 表述 。? 


?这 里 使 用 eval 函数 克隆 对 象 是 为 了 说 明 repr 方法 。 使 用 copy. copy 函数 克隆 实例 更 安全 
也 更 快速 。 


O Vector2d 实例 支持 使 用 == 比较 ;， 这样 便于 测试 。 


O print 函数 会 调用 str 函数 ， 对 Vector2d 来 说 ， 输 出 的 是 一 个 有 
序 对 。 


@ bytes HMA bytes ”方法 ， 生 成 实例 的 二 进 制 表示 形式 。 
@ abs 函数 会 调用 _abs 方法， 返回 Vector2d 实例 的 模 。 


© bool KAZH _bool_ Fis, WR Vector2d 实例 的 模 为 零 ， 
返回 False, FURE True. 


示例 9-1 中 的 Vector2d 类 在 vector2d v0.py 文件 中 实现 《〈 见 示例 9- 
2) 。 这 段 代 人 码 基于 示例 1-2， 除 了 == 之 外 《在 测试 中 用 得 到 ) ， 其 他 
中 级 运算 符 将 在 第 13 章 实现 。 现 在 ，Vector2d 用 到 了 几 个 特殊 方法 ， 
这 些 方法 提供 的 操作 是 Python 高 手 期 待 设计 民 好 的 对 象 所 提供 的 。 


示例 9-2 vector2d v0.py: 目前 定义 的 都 是 特殊 方法 


from array import array 
import math 


class Vector2d: 
typecode = 'd' @ 


def init__(self, x, y): 
self.x = float(x) © 
self.y = float(y) 
def _iter (self): 
return (i for i in (self.x, self.y)) © 


def _repr_ (self): 
class_name = type(self). name _ 
return '{}({!r}, {!r})'.format(class name, *self) @ 


def _str (self): 
return str(tuple(self)) © 


def _ bytes (self): 
return (bytes([ord(self.typecode)]) + © 
bytes(array(self.typecode, self))) @ 


def _eq_ (self, other): 
return tuple(self) == tuple(other) ©@ 


def _abs (self): 
return math.hypot(self.x, self.y) © 


def _bool__(self): 
return bool(abs(self)) 四 


D peoia 类 属性 ， 在 Vector2d 实例 和 字 节 序列 之 间 转 换 时 使 


Of init 方法 中 把 x 和 y 转换 成 浮 点 数 ， 尽 早 捕获 错误 ， 以 防 
调用 Vector2d 函数 时 传 入 不 当 参 数 。 


© 定义 iter __ a 把 Vector2d 实例 变 成 可 迭代 的 对 象 ， 这 样 才 
能 拆 包 (例如 , x, y = my_vector) 。 ecu 式 很 简单 ， 
直接 调用 ERRERA 个 接 一 个 产 出 分 量 


3 这 一 行 也 可 以 写成 yield self.x; yield.self.y。 第 14 章 会 进一步 讨论 iter _ 特殊 方 
法 、 生 成 器 表达 式 和 yield 关键 字 。 


四 repr 方法 使 用 {!r} 获取 各 个 分 量 的 表示 形式 ， 然 后 插值 ， 构 
成 一 个 字符 串 ， 因 为 Vector2d 实例 是 可 迭代 的 对 象 ， 所 以 *self 会 把 
x 和 y 分 量 提供 给 format 函数 。 


© 从 可 和 迭代 的 Vector2d 实例 中 可 以 轻松 地 得 到 一 个 元 组 ， 显 示 为 一 个 
有 序 对 。 


@ 为 了 生成 字 节 序 列 ， 我 们 把 typecode 转换 成 字 节 序列 ， 然 后 .……. 
@@ 4 Vector2d 实例 ， 得 到 一 个 数组 ， 再 把 数组 转换 成 字 节 序 


OW 为 了 快速 比较 所 有 分 量 ， 在 操作 数 中 构建 元 组 。 对 Vector2d 实例 来 
说 ， 可 以 这 样 做 ， 不 过 仍 有 问题 。 参 见 下 面 的 警告 。 


© 模 足 x 和 yy 分量 构成 的 直角 三 角形 的 斜 边 长 。 


@ _ bool 方法 使 用 abs(self) 计算 模 ， 然 后 把 结果 转换 成 布尔 
值 ， 因 此 ，6.6 是 False， 非 零 值 是 True。 


Ben 示例 9-2 FA eq 方法 ， 在 两 个 操作 数 都 是 Vector2d 
实例 时 可 用 ， 不 过 拿 Vector2d 实例 与 其 他 具有 相同 数值 的 可 迭代 
对 象 相 比 ， 结 果 也 是 True (如 Vector(3，4) == [3，4]) 。 这 
个 行为 可 以 视 作 特性 ， 也 可 以 视 作 缺陷 。 第 13 章 讲 到 运算 符 重 载 
时 才能 进一步 讨论 。 


我 们 已 经 定义 了 很 多 基本 方法 ， 但 是 显然 少 了 一 个 操作 : 使 用 bytes() 
函数 生成 的 二 进 制 表示 形式 重建 Vector2d 实例 。 
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我 们 可 以 把 Vector2d 实例 转换 成 字 节 序列 了 ; 同 理 ， 也 应 该 能 从 字 节 
序列 转换 成 Vector2d 实例 。 在 标准 库 中 探索 一 番 之 后 ， 我 们 发 现 
array.array 有 个 类 方法 .frombytes (2.9.1 节 介 绍 过 ) 正好 符合 需 
求 。 下 面 在 vector2d_vl1.py《〈 见 示例 9-3) 中 为 Vector2d 定义 一 个 同名 
类 方法 。 


示例 9-3 vector2d_vl.py 的 一 部 分 : 这 段 代 码 只 列 出 了 
frombytes 类 方法 ， 要 添加 到 vector2d v0.py( 见 示例 9-2) 中 定 
义 的 Vector2d 类 中 


@classmethod © 
def frombytes(cls, octets): @ 
typecode = chr(octets[@]) © 


memv = memoryview(octets[1:]).cast(typecode) @ 
return cls(*memv) © 


O 类 方法 使 用 classmethod 装饰 器 修饰 。 
O 不 用 传 入 self 参数 ， 相 反 ， 要 通过 cls 传 入 类 本 身 。 
O 从 第 一 个 字 节 中 读 取 typecode。 


@ 使 用 传 入 的 octets 字 节 序列 创建 一 个 memoryview， 然 后 使 用 
typecode 转换 。4 


49.9.2 节 简 单 介 绍 过 memoryview， 说 明了 它 的 .cast 方法 。 


O 拆 包 转换 后 的 memoryview， 得 到 构造 方法 所 需 的 一 对 参数 。 
我 们 用 的 classmethod 装饰 器 是 Python 专用 的 ， 下 面 讲解 一 下 。 


9.4 classmethodSstaticmethod 


Python 教程 没有 提 到 classmethod 装饰 器 ， 也 没有 提 到 
staticmethod。 学 过 Java 面 同 对 象 编程 的 人 可 能 觉得 奇怪 ， 为 什么 
Python 提供 两 个 这 样 的 装饰 器 ， 而 不 是 只 提供 一 个 ? 


先 来 看 classmethod。 示 例 9-3 展示 了 它 的 用 法 : 定义 操作 类 ， 而 不 是 
操作 实例 的 方法 。classmethod 改变 了 调用 方法 的 方式 ， 因 此 类 方法 
的 第 一 个 参数 是 类 本 和 映 ， 而 不 是 实例 。classmethod 最 常见 的 用 途 是 
定义 备 选 构 造 方 法 ， 例 如 示例 9-3 中 的 frombytes。 注 意 ，frombytes 
的 最 后 一 行使 用 cls 参数 构建 了 一 个 新 实例 ， 即 cls(*memv)。 按 照 约 
类 方法 的 第 一 个 参数 名 为 cls (但 是 Python 不 介意 具体 怎么 命 

Joa 


staticmethod 装饰 器 也 会 改变 方法 的 调用 方式 ， 但 是 第 一 个 参数 不 是 
特殊 的 值 。 其 实 ， 吏 态 方法 就 是 普通 的 函数 ， 只 是 碰巧 在 类 的 定义 体 
中 ， 而 不 是 在 模块 层 定 义 。 示 例 9-4 对 classmethod 和 
staticmethod 的 行为 做 了 对 比 。 


示例 9-4 比较 classmethod 和 staticmethod 的 行为 


>>> class Demo: 
@classmethod 
def klassmeth(*args): 
return args # © 
@staticmethod 
def statmeth(*args): 
return args #@ 


>>> Demo.klassmeth() # © 
(<class ' main .Demo'>,) 

>>> Demo.klassmeth('spam') 
(<class ' main .Demo'>, 'spam') 
>>> Demo.statmeth() #@ 

() 

>>> Demo.statmeth('spam' ) 
('spam',) 


Q klassmeth 返回 全 部 位 置 参 数 。 

© statmeth 也 是 。 

O 不 管 怎 样 调用 Demo .klassmeth， 它 的 第 一 个 参数 始终 是 Demo 类 。 

@ Demo. statmeth 的 行为 与 普通 的 函数 相似 。 
` classmethod 装饰 器 非常 有 用 ， 但 是 我 从 未 见 过 不 得 不 用 
staticmethod 的 情况 。 如 果 想 定义 不 需要 与 类 交互 的 函数 ， 那 么 
在 模块 中 定义 就 好 了 。 有 了 时， 函数 虽然 从 不 处 理 类 ， 但 是 函数 的 功 


能 与 类 紧密 相关 ， 因 此 想 把 它 放 在 近 处 。 即 便 如 此 ， 在 同一 模块 中 
的 类 前 面 或 后 面 定义 函数 也 就 行 了 。” 


5 本 书 的 技术 审 校 之 一 Leonardo Rochael 不 同意 我 对 staticmethod 的 见解 ， 作 为 反驳 ， 他 推 
荐 阅读 Julien Danjou 写 的 一 篇 博客 文章 ， 题 为 “The Definitive Guide on How to Use Static, Class or 
Abstract Methods in Python” (https://julien.danjou.info/blog/2013/guide-python-static-class-abstract- 
methods) 。Danjou 的 这 篇 文章 写 得 很 好 ， 我 推荐 阅读 。 但 是 ， 我 对 staticmethod 的 观点 依 
然 不 变 。 请 读者 自 状 。 


现在 ， 我 们 对 classmethod 的 作用 已 经 有 所 了 解 〈 而 且 知 道 
staticmethod 不 是 特别 有 用 ) ， 下 面 继续 讨论 对 象 的 表示 形式 ， 说 明 
如 何 文 持 格式 化 输出 。 


9.5 格式 化 显示 


内 置 的 format() 函数 和 str.format() 方法 把 各 个 类 型 的 格式 化 方式 
委托 给 相应 的 . format__(format_spec) 方法 。format_spec 是 格 
式 说 明 符 ， 它 是 : 

e format(my_obj, format_spec) 的 第 二 个 参数 ， 或 者 


° str. format() 方法 的 格式 字符 串 ，{} 里 代 换 字段 中 冒 写 后 面 的 部 
74 
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例如 : 


>>> brl = 1/2.43 # BRL 到 UsD 的 货币 兑换 比价 
>>> brl 

@.4115226337448559 

>>> format(br1, '@.4f') #@ 


"@.4115' 
>>> '1 BRL = {rate:@.2f} USD'.format(rate=br1) # @ 
"1 BRL = @.41 USD' 


O 格式 说 明 符 是 '6.4f'。 


O 格式 说 明 符 是 '8.2f' 。 代 换 字 段 中 的 “rate ' 子 串 是 字段 名 称 ， 与 
ee 但 是 它 决 定 把 . format () 的 哪个 参数 传 给 代 换 字 
X o 


第 2 条 标注 指出 了 一 个 重要 知识 点 : ' {8.mass:5.3e}' 这 样 的 格式 字 
符 串 其 实 包含 两 部 分 ， 冒 号 左边 的 '6.mass' 在 代 换 字段 句法 中 是 字段 
名 ， 冒 号 后 面 的 '5.3e' 是 格式 说 明 符 。 格 式 说 明 符 使 用 的 表示 法 叫 格 
式 规范 微 语言 (“Format Specification Mini- 

Language”, https://docs.python.org/3/library/string.html#formatspec ) 。 


和 如 果 你 对 format() 和 str.format() 都 感到 陌生 ， 根 据 我 
的 教学 经 验 ， 最 好 先 学 format() 函数 ， 因 为 它 只 使 用 格式 规范 微 
语言 。 学 会 这 些 表 示 法 之 后 ， 再 阅读 格式 字符 串 句 法 (Format 


String 
Syntax”, https://docs.python.org/3/library/string.html#formatspec) ， 学 
习 str. format() 方法 使 用 的 {:} 代 换 字段 表示 法 〈 包 含 转换 标 


mls, Ir Alla). 


格式 规范 微 语言 为 一 些 内 置 类 型 提供 了 专用 的 表示 代码 。 比 如 ，b 和 x 
分 别 表示 二 进 制 和 十 六 进 制 的 int 类 型 ，f 表示 小 数 形式 的 float 类 
型 ， 而 % 表 示 百 分 数 形式 : 


>>> format(42, 'b') 
"101010' 


>>> format(2/3, '.1%') 
"66.7%' 


格式 规范 微 语言 是 可 扩展 的 ， 因 为 各 个 类 可 以 自行 决定 如 何 解释 
format_spec 参数 。 例 如 ， datetime 模块 中 的 类 ， 它 们 的 

_ format _ 方法 使 用 的 格式 代码 与 strftime() 函数 一 样 。 下 面 是 内 
置 的 format() 函数 和 str.format() 方法 的 几 个 示例 : 


>>> from datetime import datetime 
>>> now = datetime.now() 

>>> format(now, '%H:%M:%S') 
"18:49:05' 


"It's now {:%1:%M %p}". format (now) 
"s now 06:49 PM" 


如 果 类 没有 定义 _ format _ 方法 ， 从 object 继承 的 方法 会 返回 
str(my_object)。 我 们 为 Vector2d RE MS _str_ 方法 ， 因 此 可 
以 这 样 做 : 

>>> v1 = Vector2d(3, 4) 


>>> format (v1) 
'(3.0, 4.0)' 


然而 ， 如 果 传 入 格式 说 明 符 ，object. format 方法 会 抛 出 
TypeError: 


>>> format(v1, '.3f') 
Traceback (most recent call last): 


TypeError: non-empty format string passed to object. format__ 


我 们 将 实现 自己 的 微 语 言 来 解决 这 个 问题 。 首 先 ， 假 设 用 户 提 供 的 格式 
说 明 符 是 用 于 格式 化 向 量 中 各 个 浮 点 数 分 量 的 。 我 们 想 达 到 的 效果 是 : 


v1 = Vector2d(3, 4) 
format(v1) 

.0, 4.0)' 

format(v1, '.2f') 


.00, 4.00)' 
format(v1, '.3e') 
.000e+00, 4.000e+00) ' 


实现 这 种 输出 的 “format _ 方法 如 示例 9-5 所 示 。 
示例 9-5 Vector2d. format _ 方法 , 第 1 版 


# 在 Vector2d 类 中 定义 


def format (self, fmt_spec=''): 


components = (format(c, fmt spec) for c in self) # © 
return '({}, {})'.format(*components) # @ 


@ 使 用 内 置 的 format 函数 把 fmt_spec 应 用 到 向 量 的 各 个 分 量 上 ， 构 
建 一 个 可 迭代 的 格式 化 字符 串 。 


O 把 格式 化 字符 串 代入 公式 '(x，y)' 中 。 
下 面 要 在 微 语言 中 添加 一 个 自 定 义 的 格式 代码 : 如 果 格 式 说 明 符 以 'p' 


结尾 ， 那 么 在 极 坐标 中 显示 向 量 ， 即 <r, 0 >， 其 中 r eh, 0 CH 
塔 ) 是 弧度 ; 其 他 部 分 ('p' 之 前 的 部 分 ) 像 往常 那样 解释 。 


a 为 自 定义 的 格式 代码 选择 字母 时 ， 我 会 避免 使 用 其 他 类 型 用 
过 的 字母 。 在 格式 规范 微 语言 
(https://docs.python.org/3/library/string.html#formatspec 〉 中 我 们 看 
到 ， 整 数 使 用 的 代码 有 “'bcdoxXn'， 浮 点 数 使 用 的 代码 有 
'eEfFgGn%' ， 字 符 串 使 用 的 代码 有 's'。 因 此 ， 我 为 极 化 标 选 的 


代码 是 'p'。 各 个 类 使 用 自己 的 方式 解释 格式 代码 ， 在 自 定 义 的 格 
式 代 码 中 重复 使 用 代码 字母 不 会 出 错 ， 但 是 可 能 会 让 用 户 困 惑 。 


对 极 坐 标 来 说 ， 我 们 已 经 定义 了 计算 模 的 __abs_ 方法 ， 因 此 还 要 定 
义 一 个 简单 的 angle 方法 ， 使 用 math.atan2() 函数 计算 角度 。angle 
方法 的 代码 如 下 : 


# 在 Vector2d 类 中 定义 


def angle(self): 
return math.atan2(self.y, self.x) 


这 样 便 可 以 增强 format__ 方法， 计算 极 坐 标 ， 如 示例 9-6 所 示 。 


示例 9-6 Vector2d. format _ 方法 ， 第 2 版， 现在 能 计算 极 
坐标 了 


def _ format__(self, fmt_spec=''): 
if fmt_spec.endswith('p'): © 
fmt spec = fmt spec[:-1] © 
coords = (abs(self), self.angle()) © 
outer fmt = '<{}, {}>' 0 


else: 


coords = self © 

outer fmt = '({}, {})' © 
components = (format(c, fmt_spec) for c in coords) @ 
return outer_fmt.format(*components) © 


@ 如 果 格 式 代码 以 'p' 结尾 ， 使 用 极 坐标 。 

© 从 fmt_spec 中 删除 'p' AH. 

O 构建 一 个 元 组 ， 表 示 极 坐标 : (magnitude, angle). 

O 把 外 层 格式 设 为 一 对 尖 插 号 。 

O 如 果 不 以 'p' 结尾 ， 使 用 self 的 x 和 y 分 量 构建 直角 坐标 。 
@ 把 外 层 格 式 设 为 一 对 圆 括号 。 


O 使 用 各 个 分 量 生成 可 迭代 的 对 象 ， 构 成 格式 化 字符 串 。 
O 把 格式 化 字符 串 代 入 外 层 格 式 。 
示例 9-6 中 的 代码 得 到 的 结果 如 下 : 


>>> format(Vector2d(1, 1), 'p') 
'<1.4142135623730951, ©0.7853981633974483>' 
>>> format(Vector2d(1, 1), '.3ep') 


'<1.414e+00, 7.854e-01>' 
>>> format(Vector2d(1, 1), '@.5fp') 
'<1.41421, @.7854@>' 


如 本 节 所 示 ， 为 用 户 自 定义 的 类 型 扩展 格式 规范 微 语言 并 不 难 。 


下 面 换个 话题 ， 它 不 仅 事 关 对 象 的 外 观 : 我 们 将 把 Vector2d 变 成 可 散 
列 的 ， 这 样 便 可 以 构建 向 量 集合 ， 或 者 把 向 量 当 作 dict 的 键 使 用 。 不 
过 在 此 之 前 ， 必 须 让 向 量 不 可 变 。 详 情 参 见 下 一 节 。 


9.6 ”可 散 列 的 Vector2d 
按照 定义 ， 目 前 Vector2d 实例 是 不 可 散 列 的 ， 因 此 不 能 放 入 集合 


YY 


(set) 中 : 


>>> v1 = Vector2d(3, 4) 
>>> hash(v1) 
Traceback (most recent call last): 


TypeError: unhashable type: “Vector2d ' 
>>> set([v1]) 
Traceback (most recent call last): 


TypeError: unhashable type: 'Vector2d' 

为 了 把 Vector2d 实例 变 成 可 散 列 的 ， 必 须 使 用 __hash_ DA Gai 
要 __eq__ 方 法， 前 面 已 经 实现 了 ) 。 此 外 ， 还 要 让 向 量 不 可 变 ， 详 情 
参见 第 3 章 的 附注 栏 “ 什 么 是 可 散 列 的 数据 类 型 ”。 


目前 ， 我 们 可 以 为 分 量 赋 新 值 ， 如 v1.x = 7, Vector2d 类 的 代码 并 
不 阻止 这 么 做 。 我 们 想 要 的 行为 是 这 样 的 : 


>>> v1l.x, v1.y 

(3.0, 4.0) 

>>> vl.x = 7 

Traceback (most recent call last): 


RE can't set attribute 
为 此 ， 我 们 要 把 x 和 y 分 量 设 为 只 读 特 性 ， 如 示例 9-7 所 示 。 


示例 9-7 vector2d_v3.py: 这 里 只 给 出 了 让 Vector2d 不 可 变 的 代 
码 ， 完 整 的 代码 清单 在 示例 9-9 中 


class Vector2d : 
typecode = 'd' 


def _ init__(self, x, y): 
self. x = float(x) © 


self. y = float(y) 


@property @ 
def x(self): © 
return self. x @ 


@property © 
def y(self): 
return self. y 


def _iter_ (self): 
return (i for i in (self.x, self.y)) © 


# 下 面 是 其 他 方法 《排版 需要 ， 省 略 了 ) 


O 使 用 两 个 前 导 下 划 线 (尾部 没有 下 划 线 ， 或 者 有 一 个 下 划 线 ) ， 把 
属性 标记 为 私有 的 。 


ee 这 不 符合 Ian Bicking 的 建议 。 私 有 属性 的 优 缺 点 参见 后 面 的 9.7 


© @property 装饰 器 把 读 值 方法 标记 为 特性 。 

O 读 值 方法 与 公开 属性 同名 ， 都 是 x. 

O 直接 返回 self. x. 

O 以 同样 的 方式 处 理 y 特性 。 

O 需要 读 取 xM y 分 量 的 方法 可 以 保持 不 变 ， 通 过 self.x 和 self.y 


读 取 公 开 特 性 ， 而 不 必 读 取 私 有 属性 ， 因 此 上 述 代码 清单 省 略 了 这 个 类 
的 其 他 代码 。 


` Vector.x 和 Vector.y 是 只 读 特 性 。 读 写 特 性 在 第 19 章 讨 
论 ， 届 时 会 深入 说 明 @property 装饰 器 


注意 ， 我 们 让 这 些 向 量 不 可 变 是 有 原因 的 ， 因为 这 样 才能 实现 
_hash _ 方法 。 这 个 方法 应 该 返回 一 个 整数 ， 理 想 情 况 下 还 要 考虑 对 
象 属性 的 散 列 值 (_ eq 方法 也 要 使 用 ) ， 因 为 相等 的 对 象 应 该 具有 


相同 的 散 列 值 。 根 据 特殊 方法 _hash__ 的 文档 
(https://docs.python.org/3/reference/datamodel.html) ， 最 好 使 用 位 运算 符 
FEM CA) 混合 各 分 量 的 散 列 值 一 一 我 们 会 这 么 

做 。Vector2d. _hash__ 方法 的 代码 十 分 简单 ， 如 示例 9-8 所 示 。 


示例 9-8 ” vector2d v3.py: 实现 ”hash_ 方法 


# 在 Vector2d 类 中 定义 


def _hash (self): 
return hash(self.x) ^ hash(self.y) 


添加 __hash__ 方法 之 后 ， 问 量变 成 可 散 列 的 了 : 


>>> v1 = Vector2d(3, 4) 
>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 


(7, 384307168202284039) 
>>> set([v1, v2]) 
{Vector2d(3.1, 4.2), Vector2d(3.0, 4.0)} 


本 要 想 创 建 可 散 列 的 类 型 ， 不 一 定 要 实现 特性 ， 也 不 一 定 要 保 
护 实例 属性 。 只 需 正 确 地 实现 “hash 和 eq 方法 即 可 。 但 
是 ， 实 例 的 散 列 值 绝 不 应 该 变化 ， 因 此 我 们 借 机 提 到 了 只 读 特 性 。 


如 果 定 义 的 类 型 有 标量 数值 ， 可 能 还 要 实现 int 和 float 方 
法 〈 分 别 被 int() 和 float() 构造 函数 调用 ) ， 以 便 在 某 些 情况 下 用 
于 强制 转换 类 型 。 此 外 ， 还 有 用 于 文 持 内 置 的 complex() 构造 了 两 数 的 

complex ”方法 。Vector2d 或 许 应 该 提供 ”complex _ 方法 , 不 

过 我 把 它 留 作 练习 给 读者 。 


我 们 一 直 在 定义 Vector2d 类 ， 也 列 出 了 很 多 代码 片段 ， 示 例 9-9 是 整 
理 后 的 完整 代码 清单 ， 保 存在 vector2d v3.py 文件 中 ， 包 含 开 发 时 我 编 
写 的 全 部 doctest。 


示例 9-9 vector2d v3.py: 完整 版 


A two-dimensional vector class 


>>> v1 = Vector2d(3, 4) 

>>> print(v1.x, v1.y) 

3.0 4.0 

>>> X, y=vi 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector2d(3.0, 4.0) 

>>> vi_clone = eval(repr(v1)) 

>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 

b ' d\ \ XOA \ \ XOA \ \ XOA \ \ XOA \ \ XOA \ XOA \ \xO8A\ \ XOAN \ XOA \ \ XOA \ XOAN \ XOA \XOO\\XL 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector2d(@, @)) 
(True, False) 


Test of ``.frombytes()`` class method: 


>>> vi_clone = Vector2d.frombytes(bytes(v1) ) 
>>> vi_clone 

Vector2d(3.0, 4.0) 

>>> v1 == vi_clone 

True 


Tests of ~~format()~~ with Cartesian coordinates: 


>>> format (v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2f') 
'(3.00, 4.00)' 

>>> format(v1, '.3e') 
'(3.000e+00, 4.000€+00)' 


Tests of the ``angle`` method:: 


>>> Vector2d(@, @).angle() 


0.0 

>>> Vector2d(1, ©).angle() 

0.0 

>>> epsilon = 10**-8 

>>> abs(Vector2d(@, 1).angle() - math.pi/2) < epsilon 
True 

>>> abs(Vector2d(1, 1).angle() - math.pi/4) < epsilon 
True 


Tests of ~~format()~~ with polar coordinates: 


>>> format(Vector2d(1, 1), 'p') # doctest:+ELLIPSIS 
"<1.414213..., @.785398...>' 

>>> format (Vector2d(1, 1), '.3ep') 

"<1.414e+00, 7.854e-01>' 

>>> format (Vector2d(1, 1), '@.5fp') 

"<1.41421, @.7854@>' 


Tests of x and ~y read-only properties: 


>>> v1l.x, vl.y 

(3.0, 4.0) 

>>> v1.x = 123 

Traceback (most recent call last): 


AttributeError: can't set attribute 


Tests of hashing: 


>>> v1 = Vector2d(3, 4) 
>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 
(7, 384307168202284039) 
>>> len(set([v1, v2])) 


from array import array 
import math 


class Vector2d: 
typecode = 'd' 


def init__(self, x, y): 


self. x = float(x) 
self. y = float(y) 
@property 


def x(self): 
return self. x 


@property 
def y(self): 
return self. y 


def _iter_ (self): 
return (i for i in (self.x, self.y)) 


def _repr (self): 
class_name = type(self). name _ 
return '{}({!r}, {!r})'.format(class name, *self) 


def _ str (self): 
return str(tuple(self) ) 


def _ bytes (self): 
return (bytes([ord(self.typecode)]) + 
bytes(array(self.typecode, self))) 


def _eq_ (self, other): 
return tuple(self) == tuple(other) 


def _hash (self): 
return hash(self.x) ^ hash(self.y) 


def _abs (self): 
return math.hypot(self.x, self.y) 


def _ bool_ (self): 
return bool(abs(self)) 


def angle(self): 
return math.atan2(self.y, self.x) 


def _ format__(self, fmt_spec=''): 

if fmt_spec.endswith('p'): 
fmt_spec = fmt_spec[:-1] 

coords = (abs(self), self.angle()) 
outer_fmt = '<{}, {}>' 

else: 
coords = self 
outer_fmt = '({}, {})' 


components = (format(c, fmt_spec) for c in coords) 
return outer_fmt.format(*components ) 


@classmethod 
def frombytes(cls, octets): 
typecode = chr(octets[@]) 


memv = memoryview(octets[1:]).cast(typecode) 
return cls(*memv) 


小 结 一 下 ， 前 两 节 说 明了 一 些 特殊 方法 ， 要 想得到 功能 完善 的 对 象 ， 这 
些 方法 可 能 是 必 备 的 。 当 然 ， 如 采 你 的 应 用 用 不 到 ， 就 没 必 要 全 部 实现 
这 些 方法 。 客 户 并 不 关心 你 的 对 象 是 否 符合 Python 风格 。 


示例 9-9 中 定义 的 Vector2d 类 只 是 为 了 教学 ， 我 们 为 它 定 义 了 许多 与 
对 象 表示 形式 有 关 的 特殊 方法 。 不 是 每 个 用 户 目 定义 的 类 都 要 这 样 做 。 


下 一 节 和 暂时 不 继续 定义 Vector2d 类 了 ， 我 们 将 讨论 Python 对 私有 属性 
( 带 两 个 下 划 线 前 级 的 属性 ， 如 self. x) 的 设计 方式 及 其 缺点 。 


9.7 “Python 的 私有 属性 和 “ 受 保 护 的 ”属性 


Python 不 能 像 Java 那样 使 用 private 修饰 符 创建 私有 属性 ， 但 是 
Python 有 个 简单 的 机 制 ， 能 避免 子 类 意外 获 兰 “私有 ”属性 。 


举 个 例子 。 有 人 编写 了 一 个 名 为 Dog 的 类 ， 这 个 类 的 内 部 用 到 了 mood 
实例 属性 ， 但 是 没有 将 其 开放 。 现 在 ， 你 创建 了 Dog 类 的 子 

类 : Beagle。 如 果 你 在 量 不 知情 的 情况 下 又 创建 了 名 为 mood 的 实例 属 
性 ， 那 么 在 继承 的 方法 中 就 会 把 Dog 类 的 mood 属性 覆盖 掉 。 这 是 个 难 
以 调试 的 问题 。 

为 了 避免 这 种 情况 ， 如 果 以 ”mood 的 形式 〈 两 个 前 导 下 划 线 ， 尾 部 没 
有 或 最 多 有 一 个 下 划 线 ) 命名 实例 属性 ，Python 会 把 属性 名 存 入 实例 的 
_ dict _ 属性 中 ， 而 且 会 在 前 面 加 上 一 个 下 划 线 和 类 名 。 因 此 ， 对 
Dog 类 来 说 ， ”mood 会 变 成 _Dog mood; 对 Beagle 类 来 说 ， 会 变 成 
_Beagle mood。 这 个 语言 特性 叫 名称 改 写 (name mangling) 。 


示例 9-10 以 示例 9-7 中 定义 的 Vector2d 类 为 例 来 说 明 名 称 改写 。 
示例 9-10 私有 属性 的 名 称 会 被 "改写 "， 在 前 面 加 上 下 划 线 和 类 名 


>>> v1 = Vector2d(3, 4) 
>>> V1. dict__ 


{'_Vector2d_y': 4.0, ' Vector2d x': 3.0} 
>>> v1. Vector2d x 
3.0 


名 称 改写 是 一 种 安全 措施 ， 不 能 保证 万 无 一 失 : 它 的 目的 是 避免 意外 访 
问 ， 不 能 防止 故意 做 错 事 ( 图 9-1 也 是 一 种 保护 装置 ) 。 


外 触动 把 手 ， 但 是 不 能 防止 有 意 转 动 


如 示例 9-10 中 的 最 后 一 行 所 示 ， 只 要 知道 改写 私有 属性 名 的 机 制 ， 任 
何人 都 能 直接 读 取 私有 属性 这 对 调试 和 序列 化 倒是 有 用 。 此 外 ， 只 
要 编写 v1._Vector x = 7 这 样 的 代码 ， 就 能 轻松 地 为 Vector2d 实 


0 


Er 


不 是 所 有 Python 程序 员 都 喜欢 名 称 改写 功能 ， 也 不 是 所 有 人 都 喜欢 

self. x 这 种 不 对 称 的 名 称 。 有 些 人 不 喜欢 这 种 句法 ， 他 们 约定 使 用 
一 个 下 划 线 前 级 编写 “ 受 保护 ”的 属性 (如 self. x) 。 批 评 使 用 两 个 下 
划 线 这 种 改写 机 制 的 人 认为 ， 应 该 使 用 命名 约定 来 避免 意外 和 窗 盖 属性 。 
本 章 开 头 引用 了 多 产 的 Tan Bicking 的 一 句 话 ， 那 句 话 的 完整 表述 如 下 : 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。 如 果 担 心 
名 称 冲突 ， 应 该 明确 使 用 一 种 名 称 改 写 方式 〈 如 

_MyThing blahblah) 。 这 其 实 与 使 用 双 下 划 线 一 样 ， 不 过 自己 
定 的 规则 比 双 下 划 线 易于 理解 。7? 


7 摘自 Paste 的 风格 指南 (http:/pythonpaste.org/StyleGuide.html)》。 


Python 解释 器 不 会 对 使 用 单个 下 划 线 的 属性 名 做 特殊 处 理 ， 不 过 这 征 很 
多 Python 程序 员 严格 遵守 的 约定 ， 他 们 不 会 在 类 外 部 访问 这 种 属性 。， 


遵守 使 用 一 个 下 划 线 标记 对 象 的 私有 属性 很 容易 ， 就 像 遵守 使 用 全 大 写 
字母 编写 常量 那样 容易 。 


8 不 过 在 模块 中 ， 顶 层 名 称 使 用 一 个 前 导 下 划 线 的 话 ， 的 确 会 有 影响 :对 From mymod import 
* Kit, mymod 中 前 缀 为 下 划 线 的 名 称 不 会 被 导入 。 然 而 ， 依 旧 可 以 使 用 From mymod 
import _privatefunc 将 其 导入 。Python 教程 的 6.1 节 “More on 

Modules” (https:/docs.python.org/3/tutorialmodules.html#more-on-modules) 说 明了 这 一 点 。 


Python 文档 的 茶 些 角落 把 使 用 一 个 下 划 线 前 缀 标记 的 属性 称 为 “ 受 保护 
的 ”属性 。? 使 用 self._x 这 种 形式 保护 属性 的 做 法 很 常见 ， 但 是 很 少 
和 


?gettext 模块 中 就 有 一 个 例子 
Chttps://docs.python. org/3/library/gettext.html#gettext.NullTranslations ) 。 


总 之 ，Vector2d 的 分 量 都 是 “私有 的 ”， 而 且 Vector2d 实例 都 是 “不 可 
变 的 ”。 我 用 了 两 对 引号 ， 这 是 因为 并 不 能 真正 实现 私有 和 不 可 变 。10 


到 如 果 这 个 说 法 让 你 感到 肖 形 ， 而 且 让 你 觉得 在 这 方面 Python 应 该 向 Java 看 齐 的 话 ， 那 么 别 
去 读本 章 的 “杂谈 ”， 我 在 其 中 对 Java 的 private 修饰 符 的 相对 强度 进行 了 探讨 。 


下 面 继续 定义 Vector2d 类 。 在 最 后 一 节 中 ， 我 们 将 讨论 一 个 特殊 的 属 
性 (不 是 方法 ) ， 它 会 影响 对 象 的 内 部 存储 ， 对 内 存 用 量 可 能 也 有 重大 
影响 ， 不 过 对 对 象 的 公开 接口 没什么 影响 。 这 个 属性 是 __slots_。 


98 使 用 _slots 类 属性 节省 空间 


默认 情况 下 ，Python 在 各 个 实例 中 名 为 dict “的 字典 里 存储 实例 属 
性 。 如 3.9.3 AIR, AS ERR Ae GET Vy A, FARN 
耗 大 量 内 存 。 如 果 要 处 理 数 百 万 个 属性 不 多 的 实例 ， 通 过 __slots__ 
aa 方法 是 让 解释 器 在 元 组 中 存储 实例 属性 ， 而 
‘HFH. 


By 继承 自 超 类 的 _ slots _ 属性 没有 效果 。Python 只 会 使 用 
各 个 类 中 定义 的 __slots ”属性 。 


定义 __slots_ 的 方式 是 ， 创 建 一 个 类 属性 ， 使 用 __slots__ 这 个 名 
字 ， 并 把 它 的 值 设 为 一 个 字符 串 构 成 的 可 过 代 对 象 ， 其 中 各 个 元 素 表示 
各 个 实例 属性 。 我 喜欢 使 用 元 组 ， 因 为 这 样 定 义 的 __slots_ “中 所 合 
的 信息 不 会 变化 ， 如 示例 9-11 所 示 。 


示例 9-11 vector2d v3 _slots.py: 只 在 Vector2d 类 中 添加 了 
_slots 属性 


class Vector2d: 
_slots = ('_x', '_y') 


typecode = 'd' 


# 下 面 是 各 个 方法 〈 因 排版 需要 而 省 略 了 ) 


在 类 中 定义 slots_ ”属性 的 目的 是 告诉 解释 器 :“ 这 个 类 中 的 所 有 实 
例 属性 都 在 这 儿 了 ! "这样 ，Python 会 在 各 个 实例 中 使 用 类 似 元 组 的 结 
构 存 储 实例 变量 ， 从 而 避免 使 用 消耗 内 存 的 __dict__ 属 性。 如果 有 数 
百 万 个 实例 同时 活动 ， 这 样 做 能 市 省 大 量 内 存 。 


a 如 果 要 处 理 数 百 万 个 数值 对 象 ， 应 该 使 用 NumPy 数组 (参见 
2.9.3 节 ) o NumPy 数组 能 高 效 使 用 内 存 ， 而 且 提供 了 高 度 优化 的 


数值 处 理 函 数 ， 其 中 很 多 都 一 次 操作 整个 数组 。 我 定义 Vector2d 
类 的 目的 是 讨论 特殊 方法 ， 因 为 我 不 太 想 随便 举 些 例子 。 


在 示例 9-12 中 ， 我 们 运行 了 两 个 构建 列表 的 脚本 ， 这 两 个 脚本 都 使 用 
列表 推导 创建 10 000 000 个 Vector2d 实例 。mem testpy 脚本 的 命令 行 
参数 是 一 个 模块 的 名 字 ， 模 块 中 定义 了 不 同 版 本 的 Vector2d 类 。 第 一 
次 运行 使 用 的 是 vector2d_v3.Vector2d 类 (在 示例 9-7 中 定义 ) ， 

第 二 次 运行 使 用 的 是 定义 了 __slots_ 的 

vector2d v3_slots.Vector2d 类 。 


示例 9-12 mem testpy 使 用 指定 模块 (如 vector2d v3.py) 中 定义 
的 Vector2d 类 创建 10 000 000 个 实例 


$ time python3 mem_test.py vector2d_v3.py 
Selected Vector2d type: vector2d_v3.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,623,808 

Final RAM usage: 1,558,482 ,944 


real ©6m16.721s 
user 0m15.568s 
sys @m1.149s 


$ time python3 mem test.py vector2d_v3_slots.py 
Selected Vector2d type: vector2d_v3_slots.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,718,016 

Final RAM usage: 655,466,496 


real Q@m13.605s 
user om13 .163s 
sys m0.434s 


如 示例 9-12 所 示 ， 在 10 000 000 个 Vector2d 实例 中 使 用 _dict 属 
性 时 ，RAM 用 量 高 达 1.5GB; 而 在 Vector2d 类 中 定义 slots JE 
性 之 后 ，RAM 用 量 降 到 了 655MB。 此 外 ， 定 义 了 __slots 属性 的 版 
本 运行 速度 也 更 快 。 这 个 测试 中 使 用 的 mem test.py 脚本 其 实 只 用 于 加 
载 一 个 模块 、 检 查 内 存 用 量 和 格式 化 结果 ， 所 用 的 代码 与 本 章 没 有 太 大 
关联 ， 因 此 放 入 附录 A 中 的 示例 A-4 里 。 


Be 在 类 中 定义 __slots__ 属性 之 后 ， 实 例 不 能 再 有 

slots __ 中 所 列 名 称 之 外 的 其 他 属性 。 这 只 是 一 个 副作用 ， 不 是 
_ slots __ 存在 的 真正 原因 。 不 要 使 用 __slots__ 属性 禁止 类 的 
用 户 新 增 实 例 属 性 。_ slots_ 是 用 于 优化 的 ， 不 是 为 了 约束 程序 


W o 


然而 , “节省 的 内 存 也 可 能 被 再 次 吃 掉 ”: WREE ' dict _' 这 个 名 称 
添加 到 slots 中 ， 实 例会 在 元 组 中 保存 各 个 实例 的 属性 ， 此 外 还 
支持 动态 创建 属性 ， 这 些 属 性 存储 在 常规 的 _ dict 中。 当然 ， 把 

_dict “添加 到 slots _ 中 可 能 完全 违背 了 初衷 ， 这 取决 于 各 个 
eee ee a ee 


此 外 ， 还 有 一 个 实例 属性 可 能 需要 注意 ， 即 weakref__ 属性， 为 了 
让 对 象 支持 弱 引 用 (参见 8.6 节 ) ， 必 须 有 这 个 属性 。 用 户 定 义 的 类 中 
AUWA weakref__ 属 性。 可 是 ， 如 果 类 中 定义 了 _ slots_ jx 
性 ， 而 且 想 把 实例 作为 弱 引 用 的 目标 ， 那 么 要 把 ' ”weakref “添加 
到 slots _ 中 。 


ft, slots 属性 有 些 需 要 注意 的 地 方 ， 而 且 不 能 小 用， 不 能 使 用 
它 限 制 用 户 能 赋值 的 属性 。 处 理 列表 数据 时 _slots__ 属性 最 有 用 ， 
例如 模式 固定 的 数据 库 记 录 ， 以 及 特大 型 数据 集 。 然 而 ， 如 果 你 经 党 处 
理 大 量 数据 ， 一 定 要 了 解 一 下 NumPy (http:/www.numpy.org) ; 此 外 ， 
数据 分 析 库 pandas (http://pandas.pydata.org) 也 值得 了 解 ， 这 个 库 可 以 
处 理 非 数值 数据 ， 而 且 能 导入 /导出 很 多 不 同 的 列表 数据 格式 。 


_ slots 的 问题 


之 ， 如 果 使 用 得 当 ，__slots__ 能 显著 市 省 内 存 ， 不 过 有 几 点 要 注 
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。 每 个 子 类 都 要 定义 _slots 属性， 因为 解释 器 会 忽略 继承 的 
_slots Jat. 


。 实例 只 能 拥有 __slots__ 中 列 出 的 属性 ， 除 非 把 '_dict __' 加 
入 _slots _ 中 (这 样 做 就 失去 了 节省 内 存 的 功效 )。 


。 如 果 不 把 '_ weakref__' INA __slots ， 实 例 就 不 能 作为 弱 引 
用 的 目标 。 


如 果 你 的 程序 不 用 处 理 数 百 万 个 实例 ， 或 许 不 值得 费劲 去 创建 不 寻常 的 
类 ， 那 就 禁止 它 创 建 动态 属性 或 者 不 支持 弱 引 用 。 与 其 他 优化 措施 一 
样 ， 仅 当权 衡 当 下 的 需求 并 仔细 搜集 资料 后 证 明确 实 有 必要 时 ， 才 应 该 
使 用 _ slots Jatt. 
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99 和 窗 新 类 属性 


Python 有 个 很 独特 的 特性 : 类 属性 可 用 于 为 实例 属性 提供 默认 

值 。Vector2d 中 有 个 typecode 类 属性 ，_bytes_ ”方法 两 次 用 到 了 
它 ， 而 且 都 故意 使 用 self.typecode 读 取 它 的 值 。 因 为 Vector2d 实 
例 本 身 没 有 typecode 属性 ， 所 以 self.typecode 默认 获取 的 是 
Vector2d.typecode 类 属性 的 值 。 


但 是 ， 如 果 为 不 存在 的 实例 属性 赋值 ， 会 新 建 实例 属性 。 假 如 我 们 为 
typecode 实例 属性 赋值 ， 那 么 同名 类 属性 不 受 影响 。 然 而 ， 自 此 之 
后 ， 实 例 读 取 的 self.typecode 是 实例 属性 typecode， 也 就 是 把 同 
借助 这 一 特性 ， 可 以 为 各 个 实例 的 typecode 属性 定 
IAS Jal H 5 


Vector2d.typecode 属性 的 默认 值 是 'd' ， 即 转换 成 字 节 序列 时 使 用 
8 字 节 双 精 度 浮 点 数 表示 疝 量 的 各 个 分 量 。 如 果 在 转换 之 前 把 
Vector2d 实例 的 typecode 属性 设 为 'f'， 那 么 使 用 4 字 节 单 精度 浮 
点 数 表示 各 个 分 量 ， 如 示例 9-13 ATA 


Be 我 们 在 讨论 如 何 添加 自 定义 的 实例 属性 ， 因 此 示例 9-13 使 
用 的 是 示例 9-9 中 不 带 _ slots 属性 的 Vector2d 类 。 


示例 9-13 设 定 从 类 中 继承 的 typecode 属性 ， 自 定义 一 个 实例 属 
性 


>>> from vector2d_v3 import Vector2d 

>>> v1 = Vector2d(1.1, 2.2) 

>>> dumpd = bytes(v1) 

>>> dumpd 
b'd\x9a\x99\x99\x99\x99\x99\x1?\x9a\x99\x99\x99\x99\x99\xe1@' 
>>> len(dumpd) # Q 

17 

>>> vi.typecode = 'f' #@ 

>>> dumpf = bytes(v1) 


>>> dumpf 
b'#\xcd\xcc\x8c?\xcd\xcc\x@c@' 
>>> len(dumpf) # © 

9 

>>> Vector2d.typecode # @ 
'd' 


@ 默认 的 字 节 序列 长 度 为 17 NF. 
@ 把 v1 实例 的 typecode 属性 设 为 'f'。 
O 现在 得 到 的 字 节 序列 是 9 个 字 节 长 。 


© Vector2d.typecode 属性 的 值 不 变 ， 只 有 v1 实例 的 typecode 属 
性 使 用 下" 


现在 你 应 该 知道 为 什么 要 在 得 到 的 字 节 序列 前 面 加 上 typecode 的 值 
T: 为 了 文 持 不 同 的 格式 。 


如 果 想 修改 类 属性 的 值 ， 必 须 直接 在 类 上 修改 ， 不 能 通过 实例 修改 。 如 
果 想 修改 所 有 实例 (没有 typecode 实例 变量 ) 的 typecode 属性 的 默 
认 值 ， 可 以 这 么 做 : 


>>> Vector2d.typecode = 'f' 


然而 ， 有 种 修改 方法 更 符合 Python 风格 ， 而 且 效 果 持 久 ， 也 更 有 针对 
性 。 类 属性 是 公开 的 ， 因 此 会 被 子 类 继承 ， 于 是 经 常会 创建 一 个 子 类 ， 
只 用 于 定制 类 的 数据 属性 。Django 基于 类 的 视图 就 大 量 使 用 了 这 个 技 
术 。 有 具体 做 法 如 示例 9-14 所 示 。 


示例 9-14 ShortVector2d 是 Vector2d 的 子 类 ， 只 用 于 履 盖 
typecode 的 默认 值 


>>> from vector2d_v3 import Vector2d 
>>> class ShortVector2d(Vector2d): # © 
typecode = 'f' 


>>> sv = ShortVector2d(1/11, 1/27) #@ 
>>> SV 
ShortVector2d(@.09890909890909091, 8.037037037037037035) # © 


>>> len(bytes(sv)) #@ 
9 


@ HE ShortVector2d 定义 为 Vector2d 的 子 类 ， 只 用 于 履 盖 
typecode 类 属性 。 


四 为 了 演示 ， 创 建 一 个 ShortVector2d 实例 ， 即 sv. 

© 查看 sv 的 repr 表示 形式 。 

O 确认 得 到 的 字 节 序列 长 度 为 9 字 节 ， 而 不 是 之 前 的 17 字 节 。 
这 也 说 明了 我 在 Vecto2d. repr “方法 中 为 什么 没有 硬 编码 


class_name 的 值 ， 而 是 使 用 type(self).__name__ 获取， 如 下 所 
ZN: 


# 在 Vector2d 类 中 定义 


def _repr_ (self): 


class_name = type(self). name _ 
return '{}({!r}, {!r})'.format(class name, *self) 


如 果 硬 编码 class name 的 值 ， 那 么 Vector2d 的 子 类 (如 
ShortVector2d) #2 _repr _ 方法 ， 只 是 为 了 修改 class_name 
的 值 。 从 实例 的 类 型 中 读 取 类 名 ， _ repr _ 方法 就 可 以 放心 继承 。 


至 此 ， 我 们 通过 一 个 简单 的 类 说 明了 如 何 利 用 数据 模型 处 理 Python 的 其 
他 功能 : 提供 不 同 的 对 象 表示 形式 、 实 现 自 定义 的 格式 代码 、 公 开 只 读 
属性 ， 以 及 通过 hash() 函数 支持 集合 和 映射。 


910 本章 小 结 


本 章 的 目的 是 说 明 ， 如 何 使 用 特殊 方法 和 约定 的 结构 ， 和 定义 行为 恨 好 且 
符合 Python 风格 的 类 。 


vector2d v3.py (示例 9-9) 比 vector2d v0.py (示例 9-2) 更 符合 Python 
风格 吗 ? vector2d v3.py 中 的 Vector2d 类 用 到 的 Python 功能 肯定 要 
多 ， 但 是 Vector2d 类 的 第 一 版 和 最 后 一 版 相 比 哪个 更 符合 风格 ， 要 看 
使 用 的 上 下 文 。Tim Peter 写 的 “Python 之 禅 ” 说 道 : 


简洁 胜 于 复杂 。 
符合 Python 风格 的 对 象 应 该 正好 符合 所 需 ， 而 不 是 堆砌 语言 特性 。 


我 不 断 改写 Vector2d 类 是 为 了 提供 上 上下文， 以便 讨论 Python 的 特殊 方 
a 回 看 表 1-1， 你 会 发 现 本 章 的 几 个 代码 清单 说 明了 下 述 
FIRT IE o 


。 有 所 有 用 于 获取 字符 串 和 字 节 序列 表示 形式 的 方 
法 : _repr 、_str 、 format 和 bytes 。 


。 把 对 象 转换 成 数字 的 几 个 方法 : _abs 、 ”bool 和 
__hash_. 
。 用 于 测试 字 节 序列 转换 和 支持 散 列 (连同 hash__ 方法 ) 的 
eq “运算 符 。 
为 了 转换 成 字 节 序列 ， 我 们 还 实现 了 一 个 备 选 构造 方法 ， 即 
Vector2d.frombytes()， 顺 便 又 讨论 了 @classmethod 〈 十 分 有 用 ) 
和 @staticmethod〈 不 太 有 用 ， 使 用 模块 层 函 数 更 简单 ) 两 个 装饰 
器 。frombytes 方法 的 实现 方式 借鉴 了 array.array 类 中 的 同名 方 
es 


我 们 了 解 到 ， 格 式 规范 微 语 言 
(https://docs.python.org/3/library/string.html#formatspec 〉 是 可 扩展 的 ， 方 
法 是 实现 format__ 方法 ， 对 提供 给 内 置 函数 format(obj， 


format_spec) 的 format_spec， 或 者 提供 给 str. format 方法 的 
‘{:«format_spec»}' 位 于 代 换 字段 中 的 «<format_spec» 做 简单 的 解 
析 。 


为 了 把 Vector2d 实例 变 成 可 散 列 的 ， 我 们 先 让 它们 不 可 变 ， 至 少 要 把 
x Aly 设 为 私有 属性 ， 再 以 只 读 特 性 公开 ， 以 防 意 外 修改 它们 。 随 后 ， 
om _hash__ 方 法， 使 用 推荐 的 异 或 运算 符 计 算 实例 属性 的 散 
列 值 。 


接着 ,我们 讨论 了 如 何 使 用 __slots__ 属性 节省 内 存 ， 以 及 这 么 做 要 
注意 的 问题 。__slots__ 属性 有 点 琼 手 ， 因 此 仅 当 处 理 特别 多 的 实例 
( 数 百 万 个 ， 而 不 是 几 干 个 ) 时 才 建 议 使 用 。 


最 后 ， 我 们 说 明了 如 何 通 过 访问 实例 属性 (如 self.typecode) # itt 
(iid 我 们 先 创 建 一 个 实例 属性 ， 然 后 创建 子 类 ， 在 类 中 有 履 盖 类 属 
性 。 


本 章 多 次 提 到 ， 我 编写 代码 的 方式 是 为 了 举例 说 明 如 何 编写 标准 Python 
对 象 的 API。 如 果 用 一 句 话 总 结 本 章 的 内 容 ， 那 就 是 : 


oe Python 风格 的 对 象 ， 就 要 观察 真正 的 Python 对 象 的 行 


一 一 古老 的 中 国 详 语 


9.11 延伸 阅读 


本 章 介 绍 了 数据 模型 的 几 个 特殊 方法 ， 因 此 主要 参考 资料 与 第 1 章 一 
样 ， 阅 读 那些 资料 能 对 这 个 话题 有 个 整体 了 解 。 方 便 起 见 ， 我 再 次 给 出 
之 前 推荐 的 四 个 资料 ， 同 时 再 多 加 几 个 。 


Python 语言 参考 手册 中 的 “Data ModeD 一 章 
(https://docs.python.org/3/reference/datamodel.html ) 


本 章 用 到 的 方法 大 部 分 见于 “3.3.1. Basic 
customization” Chttps://docs.python.org/3/reference/datamodel.html#basic- 
customization) 。 


(Python 技术 手册 《第 2 厂 ) 》，Alex Martelli # 


RAXA P H Ki Python 2.5 CE 2 版 ) ， 但 是 对 数据 模型 做 了 深 
入 说 明 。 基 本 的 概念 都 是 一 样 的 ， 而 且 目 Python 2.2 起 〈 这 一 版 的 内 置 
ee eee ， 数 据 模 型 的 大 多 数 API 完全 没 


《Python Cookbook (265 3 fi) Chk) , David Beazley 和 Brian K. 
Jones 车 


通过 诀 穷 来 演示 现代 化 的 编程 实践 。 尤 其 是 第 8 章 “ 类 与 对 象 "， 其 
中 有 好 几 个 方案 与 本 章 讨论 的 话题 有 天。 


《Python 参考 手册 C 4h) ) , David Beazley # 
详细 说 明了 Python 2.6 和 Python 3 的 数据 模型 。 


本 章 涵盖 了 与 对 象 表示 形式 有 关 的 全 部 特殊 方法 ， 唯 有 __index_ BR 
外 。 这 个 方法 的 作用 是 强制 把 对 象 转换 成 整数 索引 ， 在 特定 的 序列 切片 
场景 中 使 用 ， 以 及 满足 NumPy 的 一 个 需求 。 在 实际 编程 中 ， 你 我 都 不 
用 实现 _index__ 方 法， 除非 决定 新 建 一 种 数值 类 型 ， 并 想 把 它 作 为 
参数 传 给 __getitem__ 方法 。 如 有 果 好 奇 的 话 ， 可 以 阅读 A.M.Kuchling 
写 的 “What's New in Python 2.5” (https://docs.python.org/2.5/whatsnew/pep- 


357.html) ， 这 篇 文章 做 了 简要 说 明 ;， 此 外 ， 还 可 以 阅读 “PEP 357— 
Allowing Any Object to be Used for 

Slicing” Chttps://www.python.org/dev/peps/pep-0357/) ， 这 份 PEP 从 C 语 
言 扩 展 的 实现 者 和 Numpy 的 作者 Travis Oliphant 的 角度 详 述 了 对 
_index _ 方法 的 需求 。 


意识 到 应 该 区 分 字符 串 表 示 形 式 的 早期 语言 是 Smalltalk。1996 年 ， 

Bobby Woolf 写 了 一 篇 题 为 “How to Display an Object as a String: 

printString and displayString” 的 文章 
Chttp://esug.org/data/HistoricalDocuments/TheSmalltalkReport/ST07/04wo.p 

他 在 这 篇 文章 中 讨论 了 Smalltalk 对 printString M displayString 

方法 的 实现 。 在 9.1 节 说 明 repr() 和 str() 的 作用 时 ， 我 从 这 篇 文章 

2 ee 的 表述 ， 即 “便于 开发 者 理解 的 方式 ”和 “便于 用 户 理 
ERIA” 


y 


谈 


ae 


特性 有 助 于 减少 前 期 投入 


在 Vector2d 类 的 第 一 版 中 ，x Aly 属性 是 公开 的 ; 默认 情况 下 ， 
Python 的 所 有 实例 属性 和 类 属性 都 是 公开 的 。 这 对 同 量 来 说 是 合理 
的 ， 因 为 我 们 要 能 访问 分 量 。 虽 然 这 些 向 量 是 可 运 代 的 对 象 ， 而 且 
可 以 拆 包 成 一 对 变量 ， 但 是 还 要 能 够 通过 my_vector.x 和 
my_vector.y 获取 各 个 分 量 。 


如 采 觉 得 应 该 避免 意外 更 新 X 和 y 属性， 可 以 实现 特性 ， 但 是 代码 
的 其 他 部 分 没有 变化 ，Vector2d 的 公开 接口 也 不 受 影 响 ， 这 一 点 
从 doctest 中 可 以 得 知 。 我 们 依然 能 够 访问 my_vector.x 和 
my_vector.y. 


这 表明 我 们 可 以 和 匈 以 最 简单 的 方式 定义 类 ， 也 就 是 使 用 公开 属性 ， 
因为 如 果 以 后 需要 对 读 值 方法 和 设 值 方法 增加 控制 ， 那 就 可 以 实现 
特性 ， 这 样 做 对 一 开始 通过 公开 属性 的 名 称 〈 如 x 和 y) 与 对 象 交 
互 的 代码 没有 影 啊 。 


Java 语言 采用 的 方式 则 截然 相反 :Java 程序 员 不 能 先 定义 简单 的 公 
开 属性 ， 然 后 在 需要 时 再 实现 特性 ， 因 为 Java 语言 没有 特性 。 因 


此 ， 在 Java 中 编写 读 值 方法 和 设 值 方法 是 常态 ， 丈 算 这 些 方法 没 
做 什么 有 用 的 事情 也 得 这 么 做 ， 因 为 API 不 能 从 简单 的 公开 属性 变 
成 读 值 方法 和 设 值 方法 ， 同 时 又 不 影响 使 用 那些 属性 的 代码 。 


此 外 ， 本 书 的 技术 审 校 Alex Martelli 指出 ， 到 处 都 使 用 读 值 方法 和 
设 值 方法 是 思春 的 行为 。 如 果 想 编写 下 面 的 代码 : 


>>> my_object.set_foo(my_object.get_foo() + 1) 


这 样 做 就 行 了 : 


>>> my_object.foo += 1 


维基 的 发 明 人 和 极限 编程 先驱 Ward Cunningham 建议 问 这 个 问 

题 : “做 这 件 事 最 简单 的 方法 是 什么 ? ”* 意 即 ， 我 们 应 该 把 焦点 放 在 
目标 上 。 世 提前 实现 设 值 方法 和 读 值 方法 偏离 了 目标 。 在 Python 
中 ， 我 们 可 以 先 使 用 公开 属性 ， 然 后 等 需要 时 再 变 成 特性 。 


私有 属性 的 安全 性 和 保障 性 


Perl 不 会 强制 你 保护 隐私 。 你 应 该 竺 在 客厅 外 ， 因 为 你 没收 到 
邀请 ， 而 不 是 因为 里 面 有 把 枪 。 


Larry Wall 
Perl 之 父 


Python 和 Perl 在 很 多 方面 的 做 法 是 截然 相反 的 ， 但 是 Larry 和 
Guido 似乎 都 同意 要 保护 对 象 的 隐私 。 


这 些 年 我 教 过 许多 Java 程序 员 学 习 Python， 我 发 现 很 多 人 都 对 
Java 提供 的 隐私 保障 推 染 备 至 。 可 事实 是 ，Java 的 private 和 
protected 修饰 符 往 往 只 是 为 了 防止 意外 ( 即 一 种 安全 措施 ) . A 
有 使 用 安全 管理 器 部 署 应 用 时 才能 保障 绝对 安全 ， 防 止 恶意 访问 ; 


但 是 ， 实 际 上 很 少 有 人 这 么 做 ， 即 便 在 企业 中 也 少见 。 
下 面 通 过 一 个 Java 类 证 明 这 一 点 〈 见 示例 9-15) 。 


示例 9-15 Confidential.java: 一 个 Java 类 ， 定 义 了 一 个 私有 
字段 ， 名 为 secret 


public class Confidential { 


private String secret = ""; 


public Confidential(String text) { 
secret = text.toUpperCase(); 


} 


在 示例 9-15 H, RÆ text 转换 成 大 写 后 存 入 secret 字段 。 转 换 
成 大 写 是 为 了 表明 secret 字段 中 的 值 全 部 是 大 写 的 。 


我 们 要 使 用 Jython 运行 expose.py 脚本 才能 真正 说 明 问 题 。 那 个 脚 
本 使 用 内 省 Clava 称 之 为 “反射 ?>) 获取 私有 字段 的 值 。expose.py 脚 
本 的 代码 在 示例 9-16 中 。 


示例 9-16 expose.py: 一 段 Jython 代码 ， 从 另 一 个 类 中 读 取 一 
个 私有 字段 


import Confidential 


message = Confidential('top secret text’) 


secret_field = Confidential.getDeclaredField('secret' ) 
secret_field.setAccessible(True) # 攻破 防线 
print 'message.secret =', secret_field.get(message) 


运行 示例 9-16 得 到 的 结果 如 下 : 


$ jython expose.py 
message.secret = TOP SECRET TEXT 


字符 串 'TOP SECRET TEXT' 从 Confidential 类 的 私有 字段 
secret 中 读 取 。 


BRATZ RE: expose.py 脚本 使 用 Java 反射 API 获取 私有 
字段 "secret ' 的 引用 ， 然 后 调用 
‘secret_field.setAccessible(True)' 把 它 设 为 可 读 的 。 显 
然 ， 使 用 Java 代码 也 能 做 到 这 一 点 (不 过 所 需 的 代码 行 数 是 这 里 
的 三 倍 多 ， 参 见 本 书 代码 仓库 里 的 Expose.java X 

(F, https://github.com/fluentpython/example-code) 。 


如 果 这 个 Jython 脚本 或 Java 主 程序 (如 Expose.class) 在 
SecurityManager Chttp://docs.oracle.com/javase/tutorial/essential/environr 
的 监管 下 运行 ，. setAccessible(True) 这 个 关键 的 调用 就 会 失 

败 。 但 是 现实 中 ， 很 少 有 人 部 署 Java 应 用 时 会 使 用 

SecurityManager, Java applet 除外 (还 记得 这 个 吗 ?) 。 


我 的 观点 是 ，Java 中 的 访问 控制 修饰 符 基 本 上 也 是 安全 措施 ， 不 能 
保证 万 无 一 从 至 少 实践 中 是 如 此 。 因 此 ， 安 心 享 用 Python 提供 
的 强大 功能 吧 ， 放 心 去 用 吧 ! 


11 参 见 “Simplest Thing that Could Possibly Work: A Conversation with Ward Cunningham, Part 
V” Chttp//www.artima.com/intv/simplest3.html) 。 


HAO 序 列 的 修改 、 散 列 和 切 
Fr 


NER CEA EIST. EHIME RA BART. EINE BR AR 
不 像 鸭 子 ， 等 等 。 具 体检 查 什么 取 雇 于 你 想 使 用 语言 的 哪些 行为 。 
Ccomp .lang.python，2000 年 7 月 26 日 ) 


Alex Martelli 
本 章 将 以 第 9 章 定 义 的 二 维 向 量 Vector2d 类 为 基础 ， 向 前 迈 出 一 大 
步 ， 定 义 表示 多 维 癌 量 的 Vector 类 。 这 个 类 的 行为 与 Python 中 标准 的 
不 可 变局 平 序列 一 样 。Vector 实例 中 的 元 素 是 浮 点 数 ， 本 章 结 束 后 
Vector 类 将 文 持 下 述 功能 : 

。 基 本 的 序列 协议 一 一 _ len 和 getitem 

。 正确 表述 拥有 很 多 元 素 的 实例 

。 适当 的 切片 支持 ， 用 于 生成 新 的 Vector 实例 

。 综合 各 个 元 素 的 值 计 算 散 列 值 

。 目 定义 的 格式 语言 扩展 


此 外 ， 我 们 还 将 通过 _getattr ”方法 实现 属性 的 动态 存 取 ， 以 此 取 
代 Vector2d 使 用 的 只 读 特 性 一 一 人 不过， 序列 类 型 通常 不 会 这 么 做 。 


在 大 量 代码 之 间 ， 我 们 将 穿插 讨论 一 个 概念 ， 把 协议 当 作 正式 接口 。 我 
们 将 说 明 协 议和 上 鸭子 类 型 之 间 的 关系 ， 以 及 对 上 自 定 义 类 型 的 实际 影响 。 


我 们 开始 吧 ! 
三 维 以 上 疝 量 的 应 用 


谁 需要 1000 维 向 量 呢 ? 提示: 不 是 3D 艺术 家 ! 不过， 信息 检索 领 


域 经 常 使 用 n 维 同 量 (n EIR AINA), ARV CRS AC AS ER Ta] 
量 表示 ， 一 个 单词 一 个 维度 。 这 叫 癌 量 空间 模型 
(https://en.wikipedia.org/wiki/Vector space model) 。 在 这 个 模型 
中 ， 一 个 关键 的 相关 指标 是 余弦 相关 性 〈 即 查询 向 量 与 文档 向量 来 
。 夹 角 越 小 ， 余 弦 值 越 趋 近 于 1， 文 档 与 查询 的 相关 性 
5 o 


不 过 ， 本 章 定 义 的 Vector 类 是 为 了 教学 而 举 的 例子 ， 不 会 涉及 很 
gs 我 们 的 目的 是 以 序列 类 型 为 背景 说 明 Python 的 几 个 特 
殊 方 法 。 


如 果 在 实际 使 用 中 需要 做 同 量 运算 ， 应 该 使 用 NumPy 和 SciPy。 
Radim Rehurek 开发 的 PyPI 包 

gensim Chttps://pypi.python.org/pypi/gensim) 使 用 NumPy 和 SciPy 实 
现 了 用 于 处 理 自然 语言 和 检索 信息 的 同 量 空间 模型 。 


10.1 Vector: 用 户 定义 的 序列 类 型 


我 们 将 使 用 组 合 模式 实现 Vector 类 ， 而 不 使 用 继承 。 回 量 的 分 量 存储 
在 浮 点 数 数组 中 ， 而 且 还 将 实现 不 可 变局 平 序列 所 需 的 方法 。 


不 过 ， 在 实现 序列 方法 之 前 ， 我 们 要 确保 Vector 类 与 前 一 重 定义 的 
Vector2d 类 兼容 ， 除 非 有 些 地 方 让 二 者 兼容 没有 什么 意义 。 


10.2 ”Vector 类 第 1 版 : 5Vector2d% 3f 


4S 


Vector 类 的 第 1 版 要 尽量 与 前 一 章 定 义 的 Vector2d 类 兼容 。 


然而 我 们 会 故意 不 让 Vector 的 构造 方法 与 Vector2d 的 构造 方法 兼 
容 。 为 了 编写 Vector(3，4) 和 Vector(3，4，5) 这 样 的 代码 ， 我 们 
可 以 让 ”init _ 方法 接受 任意 个 参数 (通过 *args) ; 但 是 ， 序 列 类 
型 的 构造 方法 最 好 接受 可 和 迭代 的 对 象 为 参数 ， 因 为 所 有 内 置 的 序列 类 型 
都 是 这 样 做 的 。 示 例 10-1 展示 了 Vector 类 的 几 种 实例 化 方式 。 


示例 10-1 测试 Vector. init 和 Vector._repr 方法 


>>> Vector([3.1, 4.2]) 


>>> Vector(range(1@) ) 
Vector([@.0, 1.0, 2.0, 3.0, 4.0, ...]) 


除了 新 构造 方法 的 签名 外 ， 我 还 确保 了 传 入 两 个 分 量 〈 如 Vector([3， 
4])) 时 ，Vector2d 类 (如 Vector2d(3，4)) 的 每 个 测试 都 能 通 
过 ， 而 且 得 到 相同 的 结果 。 


Bo 
如 果 Vector 实例 的 分 量 超过 6 个 ，repr() 生成 的 字符 串 就 会 使 
用 ... 省 略 一 部 分 ， 如 示例 10-1 中 的 最 后 一 行 所 示 。 包 含 大 量 元 
素 的 集合 类 型 一 定 要 这 么 做 ， 因 为 字符 串 表 示 形 式 是 用 于 调试 的 
《因此 不 想 让 大 型 对 象 在 控制 台 或 日 志 中 输出 几 和 于 行内 容 ) 。 使 用 
reprlib 模块 可 以 生成 长 度 有 限 的 表示 形式 ， 如 示例 10-2 所 示 。 


在 Python 2 中 ，reprlib 模块 的 名 字 是 repr。2to3 工具 能 自动 重 
写 repr 导入 的 内 容 。 


示例 10-2 是 第 1 版 Vector 类 的 实现 代码 (以 示例 9-2 和 示例 9-3 中 的 
代码 为 基础 ) 。 


示例 10-2 vector vl.py: 从 vector2d_v1.py 衍生 而 来 


from array import array 
import reprlib 
import math 


class Vector: 
typecode = ‘d' 


def _ init__(self, components): 
self. components = array(self.typecode, components) © 


def _iter_ (self): 
return iter(self. components) @ 


__repr_ (self): 

components = reprlib.repr(self. components) © 
components = components[components.find('['):-1] © 
return 'Vector({})'.format (components ) 


def _str (self): 


return str(tuple(self)) 


def _bytes (self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components)) © 


_eq_ (self, other): 
return tuple(self) == tuple(other) 


_abs_ (self): 
return math.sqrt(sum(x * x for x in self)) © 


_bool_ (self): 
return bool(abs(self)) 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[6]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) @ 


@ self. components 是 “ 受 保 护 的 ”实例 属性 ， 把 Vector 的 分 量 保存 
在 一 个 数组 中 。 


O KTR, RAVEN self. components 构建 一 个 迭代 器 。1 


liter() MMA iter 方法 在 第 14 章 讨论 。 


© 使 用 reprlib.repr() 函数 获取 self._components 的 有 限 长 度 表 
示 形 式 (如 array('d', [@.@, 1.0, 2.0, 3.0, 4.0, ...])) o 


O 把 字符 串 插入 Vector 的 构造 方法 调用 之 前 ， 去 挥 前 面 的 
array('d' 和 后 面 的 )。 


O 直接 使 用 self. components 构建 bytes TR. 


O 不 能 使 用 hypot 方法 了 ， 因 此 我 们 先 计算 各 分 量 的 平方 之 和 ， 然 后 
再 使 用 sqrt 方法 开平 方 。 


O 我 们 只 需 在 Vector2d.frombytes 方法 的 基础 上 改动 最 后 一 行 : 直 
接 把 memoryview 传 给 构造 方法 ， 不 用 像 前 面 那样 使 用 * 拆 包 。 


我 使 用 reprlib.repr 的 方式 需要 做 些 说 明 。 这 个 函数 用 于 生成 大 型 结 
构 或 递归 结构 的 安全 表示 形式 ， 它 会 限制 输出 字符 串 的 长 度 ， 用 '...' 
表示 截断 的 部 分 。 我 希望 Vector 实例 的 表示 形式 是 Vector([3.9， 
4.0, 5.0]) x, A Vector(array('d', [3.0, 4.0, 
5.6]))， 因 为 Vector 实例 中 的 数组 是 实现 细节 。 因 为 这 两 种 构造 方法 
的 调用 方式 所 构建 的 Vector 对 象 是 一 样 的 ， 所 以 我 选择 使 用 更 简单 的 
句法 ， 即 传 入 列表 参数 。 


编写 __repr__ 方法 时 ， 本 可 以 使 用 这 个 表达 式 生 成 简化 的 
components 显示 形 

式 : reprlib.repr(list(self._components)). SAI, AWA A 
浪费 ， 因 为 要 把 self. components 中 的 每 个 元 素 复 制 到 一 个 列表 
中 ， 然 后 使 用 列表 的 表示 形式 。 我 没有 这 么 做 ， 而 是 直接 把 

self. components 传 给 reprlib.repr 函数 ， 然 后 去 掉 [] 外 面 的 字 
符 ， 如 示例 10-2 中 __repr ”方法 的 第 二 行 所 示 。 


A 调用 repr() RAHI A eda ih, KERA REI H EE o 
WR repr “方法 的 实现 有 问题 ， 那 么 必须 处 理 ， 尽 量 输 出 有 用 
的 内 容 ， 让 用 户 能 够 识别 目标 对 象 。 


注意 ， str 、 eq 和 bool 方法 与 Vector2d 类 中 的 一 样 ， 
而 frombytes 方法 也 只 变 了 一 个 字符 (最 后 一 行 把 * EHI) 。 这 是 
Vector2d 可 和 迭代 的 好 处 之 一 。 


顺便 说 一 下 ， 我 们 本 可 以 让 Vector 继承 Vector2d， 但 是 我 没 这 人 么 

做 ， 原因 有 二 。 其 一 ， 两 个 构造 方法 不 兼容 ， 因 此 不 建议 继承 。 这 一 点 
可 以 通过 适当 处 理 ”init _ 方法 的 参数 解决 ， 不 过 第 二 个 原因 更 重 
要 : 我 想 把 Vector 类 当 作 单独 的 示例 ， 以 此 实现 序列 协议 。 接 下 来 ， 
我 们 先 讨论 协议 这 个 术语 ， 然 后 实现 序列 协议 。 


10.3 ”协议 和 鸭子 类 型 


在 第 1 章 我 们 就 说 过 ， 在 Python 中 创建 功能 完善 的 序列 类 型 无 需 使 用 继 
承 ， 只 需 实 现 符合 序列 协议 的 方法 。 不 过 ， 这 里 说 的 协议 是 什么 呢 ? 


在 面向 对 象 编程 中 ， 协 议 是 非 正式 的 接口 ， 只 在 文档 中 定义 ， 在 代码 中 
不 定义 。 例 如 ，Python 的 序列 协议 只 需要 _ len 和 __ getitem 两 
个 方法 。 任 何 类 (如 Spam) ， 只 要 使 用 标准 的 签名 和 语义 实现 了 这 两 
个 方法 ， 就 能 用 在 任何 期 待 序列 的 地 方 。Spam 是 不 是 哪个 类 的 子 类 无 
人 示例 1-1 中 见 过 一 例 ， 这 里 再 次 


如 示例 10-3 所 示 。 


示例 10-3 示例 1-1 的 代码 ， 为 了 方便 ， 再 次 给 出 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self. cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_(self): 
return len(self. cards) 


def _ getitem_(self, position): 
return self. _cards[ position] 


示例 10-3 中 的 FrenchDeck 类 能 充分 利用 Python 的 很 多 功能 ， 因 为 它 
实现 了 序列 协议 ， 不 过 代码 中 并 没有 声明 这 一 点 。 任 何 有 经 验 的 Python 
程序 员 只 要 看 一 眼 就 知道 它 是 序列 ， 即 便 它 是 object 的 子 类 也 无 妨 。 
我 们 说 它 是 序列 ， 因 为 它 的 行为 像 序列 ， 这 才 是 重点 。 


根据 本 章 开 头 引 用 的 Alex Martelli 的 帖子 ， 人 们 称 其 为 鸭子 类 型 (duck 
typing) 。 


协议 是 非 正 式 的 ， 没 有 强制 力 ， 因 此 如 果 你 知道 类 的 具体 使 用 场景 ， 通 
常 只 需要 实现 一 个 协议 的 部 分 。 例 如 ， 为 了 支持 迭代 ， 只 需 实现 
_ getitem_ Wik, WME len Wik. 


下 面 ， 我 们 将 在 Vector 类 中 实现 序列 协议 。 我 们 先 不 文 持 完美 的 切 
片 ， 稍 后 再 完善 。 


10.4 Vector 类 第 2 版 可 切片 的 序列 


如 FrenchDeck 类 所 示 ， 如 果 能 委托 给 对 象 中 的 序列 属性 〈 如 
self._components 数组 ) ， 文 持 序列 协议 特别 简单 。 下 述 只 有 一 行 代 
PSH) len 和 getitem _ 方法 是 个 好 的 开始 : 


class Vector: 
# 省 略 了 很 多 行 
fa 


def _len_ (self): 


return len(self. components) 


def getitem (self, index): 
return self. components[index] 


添加 这 两 个 方法 之 后 ， 就 能 执行 下 述 操作 了 : 


>>> v1 = Vector([3, 4, 5]) 
>>> len(v1) 

3 

>>> v1[@], v1[-1] 


(3.0, 5.0) 

>>> v7 = Vector(range(7) ) 
>>> v7[1:4] 

array('d', [1.0, 2.0, 3.0]) 


可 以 看 到 ， 现 在 连 切 片 都 支持 了 ， 不 过 尚 不 完美 。 如 果 Vector 实例 的 
切片 也 是 Vector 实例 ， 而 不 是 数组 ， 那 就 更 好 了 。 前 面 那 个 
FrenchDeck 类 也 有 类 似 的 问题 : 切片 得 到 的 是 列表 。 对 Vector 来 
说 ， 如 果 切 片 生成 普通 的 数组 ， 将 会 缺失 大 量 功能 。 


想 想 内 置 的 序列 类 型 ， 切 片 得 到 的 都 是 各 目 类 型 的 新 实例 ， 而 不 是 其 他 


类 型 。 


为 了 把 Vector 实例 的 切片 也 变 成 Vector 实例 ， 我 们 不 能 简单 地 委托 
给 数组 切片 。 我 们 要 分 析 传 给 ”getitem _ 方法 的 参数 ， 做 适当 的 处 


H 


下 面 来 看 Python 如 何 把 my_seq[1:3] 句法 变 成 传 给 
my seq. getitem (...) 的 参数 


10.4.1 切片 原理 
一 例 胜 千言 ， 我 们 来 看 看 示例 10-4。 
示例 10-4 了 解 _getitem 和 切片 的 行为 


>>> class MySeq: 
def _ getitem_(self, index): 
return index # © 


>>> s = MySeq() 

>>> s[1] #@ 

1 

>>> s[1:4] # © 
slice(1, 4, None) 

>>> s[1:4:2] # © 
slice(1, 4, 2) 

>>> s[1:4:2, 9] #0 
(slice(1, 4, 2), 9) 

>>> s[1:4:2, 7:9] # QO 
(slice(1, 4, 2), slice(7, 9, None)) 


@ 在 这 个 示例 中 ， ”getitem 直接 返回 传 给 它 的 值 。 
O 单个 索引 ， 没 什么 新 奇 的 。 
@ 1:4 表示 法 变 成 了 slice(1, 4, None). 


四 slice(1, 4, 2) 的 意思 是 从 1 开始， 到 4 结束 ， 步 幅 为 2。 
O 神奇 的 事 发 生 了 : WR] 中 有 如 号， 那么 getitem _ 收 到 的 是 
J 


O 元 组 中 甚至 可 以 有 多 个 切片 对 象 。 


现在 ， 我 们 来 仔细 看 看 slice 本 身 ， 如 示例 10-5 Frm. 
示例 10-$ 查看 slice 类 的 属性 


>>> slice # Q 

<class 'slice'> 

>>> dir(slice) #@ 

['_class__', '_delattr__', '_dir_', ' 


"__getattribute_', '_| 


"__reduce_ex__', '_repr_', 
setattr__', '_ si =", ‘_str__', '__subclasshook_', 
ndices', 'start', 'step', 'stop' ] 


Q slice 是 内 置 的 类 型 (2.42 节 首 次 出 现 ) 。 


四 通过 审查 sLlice， 发 现 它 有 start. stop 和 step 数据 属性 ， 以 及 
indices 方法 。 


在 示例 10-5 中 ， 调 用 dir(slice) 得 到 的 结果 中 有 个 indices 属性 ， 
这 个 方法 有 很 大 的 作用 ， 但 是 鲜 为 人 知 。help(slice.indices) 给 出 
的 信息 如 下 。 


S.indices(len) -> (start, stop, stride) 


给 定 长 度 为 len 的 序列 ， 计 算 s 表示 的 扩展 切片 的 起 始 (start) 
和 结尾 (stop) 索引 ， 以 及 步 幅 (stride) 。 超 出 边界 的 索引 会 被 截 
挤 ， 这 与 常规 切片 的 处 理 方式 一 样 。 


换 句 话说 ，indices 方法 开放 了 内 置 序列 实现 的 环 手 逻辑 ， 用 于 优雅 地 
处 理 缺 失 索 引 和 负数 索引 ， 以 及 长 度 超 过 目标 序列 的 切片 。 这 个 方法 
会 “整顿 ?元 组 ， 把 start. stop 和 stride 都 变 成 非 负 数 ， 而 且 都 落 在 
指定 长 度 序列 的 边界 内 。 


下 面 举 几 个 例子 。 假 设 有 个 长 上 度 为 5 的 序列 ， 例 如 'ABCDE': 


>>> slice(None, 10, 2).indices(5) #@ 
(0, 5, 2) 


>>> slice(-3, None, None).indices(5) # @ 
(2, 5, 1) 


@ 'ABCDE'[:10:2] 等 同 于 "ABCDE'[6:5:2] 


© 'ABCDE'[-3:] 等 同 于 'ABCDE' [2:5:1] 


` 写作 本 书 时 ， 在 线 版 Python 库 参 考 好 像 还 没有 
slice.indices 方法 的 文档 。?Python Python/C API 参考 手册 中 有 
类 似 的 C 语言 函数 的 文档 ， 

PySlice GetIndicesEx (https://docs.python.org/3/c- 
api/slice.html#c.PySlice GetIndicesEx) 。 研 究 切 片 对 象 时 ， 我 在 
Python 控制 台中 执行 了 dir() 和 help()， 这 才 发 现 
slice.indices() 方法 。 这 也 表明 交互 式 控制 台 是 个 有 价值 的 工 
具 ， 能 发 现 新 事物 。 


2 现在 已 经 有 了 ， 参 见 : https//docs.python.org/3/reference/datamodel. html? 
highlight=indices#slice.indices。 编者 注 


在 Vector 类 中 无 需 使 用 slice.indices() 方法 ， 因 为 收 到 切片 参数 
时 ， 我 们 会 委托 _components 数组 处 理 。 但 是 ， 如 果 你 没有 底层 序列 
类 型 作为 依靠 ， 那 么 使 用 这 个 方法 能 节省 大 量 时 间 。 


现在 我 们 知道 如 何 处 理 切片 了 ， 下 面 来 看 Vector. getitem _ 方法 
改进 后 的 实现 。 


10.4.2 ”能 处 理 切 片 的 _getitem 方法 


示例 10-6 列 出 了 让 Vector 表现 为 序列 所 需 的 两 个 方法 : _len_ Fil 
_ getitem 《后 者 现在 能 正确 地 处 理 切 乒 了 ) 。 


示例 10-6 vector _v2.py 的 部 分 代码 : 为 vector vl.py 中 的 Vector 
类 【〈 见 示例 10-2) 添加 _ len 和 getitem _ 方法 


def _len_(self): 
return len(self. components) 


def getitem (self, index): 
cls = type(self) © 
if isinstance(index, slice): @ 


return cls(self._components[index]) © 

elif isinstance(index, numbers.Integral): @ 
return self. components[index] © 

else: 
msg = '{cls. name } indices must be integers' 
raise TypeError(msg.format(cls=cls)) © 


@ 获取 实例 所 属 的 类 CB Vector) ， 供 后 面 使 用 。 
© 如 果 index 参数 的 值 是 slice WR...... 
@...... 调用 类 的 构造 方法 ， 使 用 _components 数组 的 切片 构建 一 个 新 


Vector 实例 。 


@ 如 果 index 是 int 或 其 他 整数 类 型 ..…...3 


3 必须 在 vector_v2.py 的 开头 加 上 import numbers. 编者 注 


@...... 那 就 返回 “components 中 相应 的 元 素 。 
否则 ， 抛 出 异常 。 


` 大 量 使 用 isinstance 可 能 表明 面 癌 对象 设计 得 不 好 ， 不 过 
在 getitem_ 方法 中 使 用 它 处 理 切 片 是 合理 的 。 注 意 ， 示 例 10- 
6 中 测试 时 用 的 是 numbers .Integral， 这 是 一 个 抽象 基 类 

(Abstract Base Class, ABC) 。 在 isinstance 中 使 用 抽象 基 类 做 
测试 能 让 API 更 灵活 且 更 容易 更 新 ， 原 因 参 见 第 11 ee. A TE, 
Python 3.4 的 标准 库 中 没有 slice 的 抽象 基 类 。 


为 了 确定 在 getitem _ 的 else 子 句 中 会 抛 出 哪个 异常 ， 我 在 交互 
式 控制 台中 查看 了 'ABC'[1, 2] WAR. REIL, Python 抛 出 的 是 
TypeError; 我 还 从 错误 消息 中 复制 了 表述 方式 , “indices must be 

为 了 创建 符合 Python 风格 的 对 象 ， 我 们 要 模仿 Python 内 置 的 
XY Ro 


把 示例 10-6 中 的 代码 添加 到 Vector 类 中 之 后 ， 切 片 行 为 就 正确 了 ， 如 
示例 10-7 所 示 。 


示例 10-7 测试 示例 10-6 中 改进 的 Vector. getitem _ 方法 


>>> v7 = Vector(range(7) ) 

>>> v7[-1] Q 

6.0 

>>> v7[1:4] @ 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] © 

Vector([6.0]) 

>>> v7[1,2] © 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 
O 单个 整数 索引 只 获取 一 个 分 量 ， 值 为 浮 点 数 。 
O 切片 索引 创建 一 个 新 Vector 实例 。 
O 长 度 为 1 的 切片 也 创建 一 个 Vector 实例 。 


O vector 不 文 持 多 维 索 引 ， 因 此 索引 元 组 或 多 个 切片 会 抛 出 错误 。 


10.5 Vector 类 第 3 版 : 动态 存 取 属性 


Vector2d 变 成 Vector 之 后 ， 融 没 办 法 通过 名 称 访 问 向 量 的 分 量 了 

《如 v.x 和 v.y) 。 现 在 我 们 处 理 的 向 量 可 能 有 大 量 分 量 。 不 过 ， 大 能 
通过 单个 字母 访问 前 几 个 分 量 的 话 会 比较 方便 。 比 如 ， 用 x、y 和 z 代 
# vio], v[1] 和 v[2]。 


我 们 想 额 外 提供 下 述 句 法 ， 用 于 读 取 疝 量 的 前 四 个 分 量 : 


>>> v = Vector(range(10)) 


>>> V.y, V.Z, V.t 
(1.0, 2.0, 3.0) 


在 Vector2d 中 ， 我 们 使 用 @property 装饰 器 把 x 和 y 标记 为 只 读 特 
性 《〈 见 示例 9-7) 。 我 们 可 以 在 Vector 中 编写 四 个 特性 ， 但 这 样 太 麻 
烦 。 特 殊 方 法 getattr _ 提供 了 更 好 的 方式 。 


属性 查找 失败 后 ， 解 释 器 会 调用 ”getattr __ 方法。 简单 来 说 ， 对 
my_obj .x 表达 式 ，Python 会 检查 my_obj 实例 有 没有 名 为 x 的 属性 ; 
如 果 没 有 ， 到 类 (my_obj. class ) 中 查找 ; 如 果 还 没有 ， 顺 着 继 
承 树 继续 查找 。4 如 果 依 旧 找 不 到 ， 调 用 my_obj 所 属 类 中 定义 的 

_ getattr_ _ 方法 ， 传 入 self 和 属性 名 称 的 字符 串 形式 (如 'x')。 


4 属性 查找 机 制 比 这 复杂 得 多 ， 复 杂 的 细节 在 第 六 部 分 讲解 。 目 前 知道 这 种 简单 的 说 明 即 可 。 
示例 10-8 中 列 出 的 是 我 们 为 Vector 类 定义 的 getattr_ 方法。 这 
个 方法 的 作用 很 简单 ， 它 检查 所 碍 找 的 属性 是 不 是 xyzt 中 的 某 个 字 
母 ， 如 果 是 ， 那 么 返回 对 应 的 分 量 。 


示例 10-8 ”vector_v3.py 的 部 分 代码 : 在 vector_v2.py 中 定义 的 
Vector 类 里 添加 ” getattr ”方法 


shortcut_names = 'xyzt' 


def _ getattr__(self, name): 
cls = type(self) © 


if len(name) = 1: @ 
pos = cls.shortcut_names.find(name) © 
if 6 <= pos < len(self. components): @ 
return self. _components|[pos ] 
msg = '{. name !r} object has no attribute {!r}' © 
raise AttributeError(msg.format(cls, name) ) 


@ 获取 Vector， 后 面 待 用 。 
O 如 果 属 性 名 只 有 一 个 字母 ， 可 能 是 shortcut_names 中 的 一 个 。 


O 查找 那个 字母 的 位 置 ，str.find 还 会 定位 'yz'， 但 是 我 们 不 需 
要 ， 因 此 在 前 一 行 做 了 测试 。 


O 如 果 位 置 落 在 范围 内 ， 返 回 数组 中 对 应 的 元 素 。 
O 如 果 测 试 都 失败 了 ， 抛 出 AttributeError， 并 指明 标准 的 消息 文 


fe) 


getattr_ “方法 的 实现 不 难 ， 但 是 这 样 实现 还 不 够 。 看 看 示例 10-9 
中 古怪 的 交互 行为 。 


a 10-9 不 恰当 的 行为 : 为 v.x 赋值 没有 抛 出 错误 ， 但 是 前 后 


>>> v = Vector(range(5) ) 

>>> V 

Vector ([0.0, 1.0, 2.0, 3.0, 4.0]) 
>> v.x #0 

0.0 


>> v.x=10 #0 

>> v.x #0 

10 

>>> V 

Vector ([0.0, 1.0, 2.0, 3.0, 4.0]) #@ 


O 使 用 v.x 获取 第 一 个 元 素 〈v[8@] » 


OA v.x 赋 新 值 。 这 个 操作 应 该 抛 出 异常 。 
O 读 取 v.x， 得 到 的 是 新 值 ，16。 
@ 可 是 ， 疝 量 的 分 量 没 变 。 


你 能 解释 为 什么 会 这 样 吗 ? 具体 而 言 ， 如 果 问 量 的 分 量 数组 中 没有 新 
值 ， 为 什么 v.x 返回 16 ? 如果 你 不 能 立即 给 出 解释 ， 再 看 看 示例 10-8 
前 面 对 __getattr__ 方法 的 说 明 。 原 因 不 是 很 明显 ,但 却 是 理解 本 书 
后 面 内 容 的 重要 基础 。 


示例 10-9 之 所 以 前 后 矛盾 ， 是 getattr _ 的 运作 方式 导致 的 : 仅 当 
对 象 没 有 指定 名 称 的 属性 时 ，Python 才 会 调用 那个 方法 ， 这 是 一 种 后 备 
机 制 。 可 是 ， 像 v.x = 16 这 样 赋值 之 后 ，v 对 象 有 x 属性 了 ， 因 此 使 
用 v.x 获取 x 属性 的 值 时 不 会 调用 getattr _ 方法 了 ， 解 释 器 直接 
返回 绑 定 到 v.x 上 的 值 ， 即 16。 男 一 方面 ， getattr__ 方法 的 实现 
没有 考虑 到 self. components 之 外 的 实例 属性 ， 而 是 从 这 个 属性 中 
获取 shortcut_names 中 所 列 的 “虚拟 属性 ”。 


人 我 们 要 改写 Vector 类 中 设置 属性 的 逻 
Ho 


回想 第 9 章 的 最 后 一 个 Vector2d 示例 中 ， 如 果 为 .x 或 .y 实例 属性 赋 
值 ， 会 抛 出 AttributeError。 为 了 避免 歧义 ， 在 Vector 类 中 ， 如 果 
为 名 称 是 单个 小 写字 母 的 属性 赋值 ， 我 们 也 想 抛 出 那个 异常 。 为 此 ， 我 
们 要 实现 setattr_ _ 方法 ， 如 示例 10-10 所 示 。 


示例 10-10 ”vector_v3.py 的 部 分 代码 : 在 Vector 类 中 实现 
setattr ”方法 


def _setattr (self, name, value): 
cls = type(self) 
if len(name) = 1: © 
if name in cls.shortcut_names: @ 


error = ‘readonly attribute {attr_name!r}' 
elif name.islower(): 

error = "can't set attributes 'a' to 'z' in {cls_name!r}" 
else: 


error = '' @ 


if error: © 
msg = error.format(cls name=cls. name , attr_name=name) 
raise AttributeError(msg) 
super(). setattr (name, value) © 


@ 特别 处 理 名 称 是 单个 字符 的 属性 。 
© 如 果 name 是 xyzt 中 的 一 个 ， 设 置 特殊 的 错误 消息 。 


O 如果 name 是 小 写字 母 ， 为 所 有 小 写字 母 设置 一 个 错误 消息 。 
否则 ， 把 错误 消息 设 为 空 字符 串 。 

O 如 果 有 错误 消息 ， 抛 出 AttributeError。 

O 默认 情况 ， 在 超 类 上 调用 setattr__ 方法， 提供 标准 行为 。 


AI super () 函数 用 于 动态 访问 超 类 的 方法 ， 对 Python 这 样 文 持 
多 重 继 承 的 动态 语言 来 说 ， 必 须 能 这 么 做 。 程 序 员 经 常 使 用 这 个 函 
数 把 子 类 方法 的 某 些 任务 委托 给 超 类 中 适当 的 方法 ， 如 示例 10-10 
所 示 。12.2 节 会 进一步 探讨 super() 函数 。 


为 了 给 AttributeError 选择 错误 消息 ， 我 查看 了 内 置 的 complex 类 
型 的 行为 ， 因 为 complex 对 象 是 不 可 变 的 ， 而 且 有 一 对 数据 属 
性 : real 和 ijmag。 如 果 试 图 修改 任何 一 个 属性 ，complex 实例 会 抛 出 
AttributeError， 而 且 把 错误 消息 设 为 "can't set attribute" 
MIA KRA SCRE TEP I 4 读 属 性 赋值 1K 9.6 节 那 样 做 〉， 得 到 的 
音 误 消息 是 "readon1ly attribute". Æ setitem _ 方法 中 为 
error 字符 串 选 词 时 ， 我 参考 fk 这 两 个 错误 消息 引 ， 而 且 更 为 明确 地 指出 
了 禁止 赋值 的 属性 。 


注意 ， 我 们 没有 禁止 为 全 部 属性 赋值 ， 只 是 禁止 为 单个 小 写字 母 属性 赋 
值 ， 以 防 与 只 读 属 性 x、y、z 和 七 混淆 。 


Bs 我 们 知道 ， 在 类 中 声明 slots_” 属 性 可 以 防止 设置 新 实 
例 属性 ; 因此， 你 可 能 想 使 用 运 个 功能 ”而 不 像 这 里 所 做 的 ， 实 现 


setattr ”方法 。 可 是， 正如 9.8.1 节 所 指出 的 ， 不 建议 只 为 了 
避免 创建 实例 属性 而 使 用 slots “属性 。_slots _ 属性 只 应 
该 用 于 节省 内 存 ， 而 且 仅 当 内 存 严 重 不 足 时 才 应 该 这 么 做 。 


虽然 这 个 示例 不 支持 为 Vector 分 量 赋值 ， 但 是 有 一 个 问题 要 特别 注 
意 : 多 数 时 候 ， 如 果实 现 了  getattr__ 方法， 那么 也 要 定义 
_setattr _ 方法 ， 以 防 对 象 的 行为 不 一 致 。 


如 有 果 想 允许 修改 分 量 ， 可 以 使 用 __setitem__ 方法 ， 文 持 v[8] = 
1.1 这 样 的 赋值 ， 以 及 (或者) 实现 setattr__ 方法， 支持 VvV.x = 
1.1 这 样 的 赋值 。 不 过 ， 我 们 要 保持 Vector 是 不 可 变 的 ， 因 为 在 下 一 
节 中 ， 我 们 将 把 它 变 成 可 散 列 的 。 


10.6 Vector 类 第 4 版 : 散 列 和 快速 等 值 
测试 


我 们 要 再 次 实现 __hash_ 方法 。 加 上 现 有 的 __eq__ 方 法， 这 会 把 
Vector 实例 变 成 可 散 列 的 对 象 。 


示例 9-8 中 的 _hash__ 方法 简单 地 计算 hash(self.x) ^ 
hash(self.y)。 这 一 次 ， 我 们 要 使 用 ^〈 措 或 ) 运算 符 依次 计算 各 个 分 
量 的 散 列 值 ， 像 这 样 : v[6] ^ v[1] ^ v[2]...。 这 正 是 
functools.reduce 函数 的 作用 。 之 前 我 说 reduce 没有 以 往 那 么 常 
用 ，” 但 是 计算 向 量 所 有 分 量 的 散 列 值 非常 适合 使 用 这 个 函数 。reduce 
函数 的 整体 思路 如 网 10-1 所 示 。 


ssum、any 和 all 涵盖 了 reduce 的 大 部 分 用 途 。 参 见 5.2.1 节 的 讨论 。 


[全 全 全 全 全 全 
Nie yee 


图 10-1: JAAR Ae (reduce, sum, any, all) 把 序列 或 有 限 的 可 
迭代 对 象 变 成 一 个 聚合 结果 


我 们 已 经 知道 functools.reduce() 可 以 蔡 换 成 sum()， 下 面 说 说 它 
的 原理 。 它 的 关键 思想 是 ， 把 一 系列 值 归 约 成 单个 值 。reduce() 函数 
的 第 一 个 参数 是 接受 两 个 参数 的 函数 ， 第 二 个 参数 是 一 个 可 迭代 的 对 
象 。 假 如 有 个 接受 两 个 参数 的 fn 函数 和 一 个 1st 列表 。 调 用 
reduce(fn，1st) MN, fn 会 应 用 到 第 一 对 元 素 上 ， 即 fn(1st[e], 
lst[1])， 生 成 第 一 个 结果 rl1。 然 后 ，fn 会 应 用 到 ri 和 下 一 个 元 素 


E, Bl fn(CF1，1st[2])， 生 成 第 二 个 结果 r2。 接 着 ， 调 用 fn(r2, 
lst[3])， 生 成 r3...... 直 到 最 后 一 个 元 素 ， 人 返回 最 后 得 到 的 结果 rN。 


使 用 reduce 函数 可 以 计算 5! (5 的 阶乘 ) : 


>>> 2*3*4* 5 # 想 要 的 结果 是 : 5! == 120 


120 


>>> import functools 
>>> functools.reduce(lambda a,b: a*b, range(1, 6)) 
120 


回 到 散 列 问题 上 上。 示例 10-11 展示 了 计算 聚合 异 或 的 3 种 方式 : 一 种 使 
用 for 循环 ， 两 种 使 用 reduce 函数 。 


示例 10-11 计算 整数 0~5 的 累计 异 或 的 3 种 方式 


n= 0 
for i in range(1, 6): # © 
n^i 


n 


import functools 
functools.reduce(lambda a, b: a^b, range(6)) #@ 


import operator 
functools.reduce(operator.xor, range(6)) # © 


@ 使 用 for 循环 和 累加 器 变量 计算 聚合 异 或 。 
© 使 用 functools.reduce MM, FAB ZMH. 
© 使 用 functools.reduce 函数 ， 把 lambda 表达 式 换 成 


operator.xor. 


示例 10-11 中 的 3 种 方式 里 ， 我 最 喜欢 最 后 一 种 ， 其 次 是 for 循环 。 你 
呢 ? 


10.1 节 讲 过 ，operator 模块 以 函数 的 形式 提供 了 Python 的 全 部 中 绥 
ew. 从 而 减少 使 用 lambda 表达 式 。 


为 了 使 用 我 喜欢 的 方式 编写 Vector._hash _ 方法 ， 我 们 要 导入 
functools 和 operator PEER. Vector 类 的 相关 变化 如 示例 10-12 所 
示 。 


示例 10-12 vector_v4.py 的 部 分 代码 : 在 vector_v3.py F Vector 
类 的 基础 上 导入 两 个 模块 ， 添 加 hash_ 方法 


from array import array 
import reprlib 

import math 

import functools # @ 
import operator # @ 


class Vector: 
typecode = 'd' 


# 排版 需要 ， 省 略 了 很 多 行 ... 


def _eq_ (self, other): # © 
return tuple(self) == tuple(other) 


def _hash (self): 
hashes = (hash(x) for x in self._components) # © 
return functools.reduce(operator.xor, hashes, 0) #0 


# 省 略 了 很 多 行 ... 


O 为 了 使 用 reduce 函数 ， 导 入 functools 模块 。 
OW 为 了 使 用 xor 函数 ， 导 入 operator 模块 。 


O eq 方法 没 变 ; 我 把 它 列 出 来 是 为 了 把 它 和 __ hash__ 方法 放 在 
一 起 ， 因 为 它们 要 结合 在 一 起 使 用 。 


O 创建 一 个 生成 器 表达 式 ， 惰 性 计算 各 个 分 量 的 散 列 值 。 


加 把 hashes 提供 给 reduce 函数 ， 使 用 xor 函数 计算 聚合 的 散 列 值 ; 
第 三 个 参数 ，6 是 初始 值 〈 参 见 下 面 的 警告 框 ) 。 


By 使 用 reduce 函数 时 最 好 提供 第 三 个 参 

数 ，reduce(function，iterable，initializer)， 这 样 能 避 
免 这 个 异常 : TypeError: reduce() of empty sequence with 
no initial value《〈 这 个 错误 消息 很 棒 ， 说 明了 问题 ， 还 提供 了 
解决 方法 ) 。 如 果 序 列 为 空 ，initializer 是 返回 的 结果 ; 否 
则 ， 在 归 约 中 使 用 它 作 为 第 一 个 参数 ， 因 此 应 该 使 用 恒 等 值 。 比 
如 ， 对 +、| 和 ^ 来 说 ， initializer 应 该 是 6; 而 对 * 和 & 来 
说 ， 应 该 是 1。 


示例 10-12 中 实现 的 “hash_ ”方法 是 一 种 映射 归 约 计算 〈 见 图 10- 
2) 。 


| 
| 


| 
| 
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图 10-2: 映射 归 约 ; 把 函数 应 用 到 各 个 元 素 上 ， 生 成 一 个 新 序列 
CARY, map) ， 然 后 计算 聚合 值 ( 归 约 ，reduce) 


映射 过 程 计 算 各 个 分 量 的 散 列 值 ， 归 约 过 程 则 使 用 xor 运算 符 聚 合 所 有 
BIME. TEAL Mae eA TUS HM map 方法 ， 映 射 过 程 更 明显 : 


def _hash_ (self): 
hashes = map(hash, self._components) 
return functools.reduce(operator.xor, hashes) 


[L CR 


AI 在 Python 2 中 使 用 map 函数 效率 低 些 ， 因 为 map 函数 要 使 用 
结果 构建 一 个 列表 。 但 是 在 Python 3 +, map 函数 是 惰性 的 ， 它 会 
创建 一 个 生成 器 ， 按 需 产 出 结果 ， 因 此 能 节省 内 存 一 一 这 与 示例 
10-12 中 使 用 生成 器 表达 式 定 义 _hash_ 方法 的 原理 一 样 。 


既然 讲 到 了 归 约 函数 ， 那 就 把 前 面 草草 实现 的 __eq__ 方法 修改 一 下 ， 
减少 处 理 时 间 和 内 存 用 量 一 一 至 少 对 大 型 向 量 来 说 是 这 样 。 如 示例 9-2 
所 示 ，_ eq_ “方法 的 实现 可 以 非常 简洁 : 


def eq (self, other): 
return tuple(self) == tuple(other) 


Vector2d 和 Vector 都 可 以 这 样 做 ， 它 甚至 还 会 认为 Vector([1， 
2]) 和 (1, 2) 相等 。 这 或 许 是 个 问题 ， 不 过 我 们 暂且 忽略 。 可 是 ， 
这 样 做 对 有 几 千 个 分 量 的 Vector 实例 来 说 ， 效 率 十 分 低下 。 上 述 实 现 
方式 要 完整 复制 两 个 操作 数 ， 构 建 两 个 元 组 ， 而 这 么 做 只 是 为 了 使 用 
tuple 类 型 的 ”eq ”方法 。 对 Vector2d (只 有 两 个 分 量 ) 来 说 ， 这 
是 个 捷径， 但 是 对 维 数 很 多 的 回 量 来 说 情况 就 不 同 了 。 示 例 10-13 中 比 
较 两 个 Vector 实例 (或 者 比较 一 个 Vector 实例 与 一 个 可 从 代 对 象 ) 
的 方式 更 好 。 


613.1 节 会 认真 对 待 Vector([1，2]) == (1, 2) 这 个 问题 。 


示例 10-13 为 了 提高 比较 的 效率 ，Vector. eq _ 方法 在 for 
循环 中 使 用 zip 函数 


def eq _ (self, other): 
if len(self) != len(other): # © 
return False 
for a, b in zip(self, other): #@ 


ifal=b: #0 
return False 
return True # 


@ 如 果 两 个 对 象 的 长 度 不 一 样 ， 那 么 它们 不 相等 。 


© zip 函数 生成 一 个 由 元 组 构成 的 生成 器 ， 元 组 中 的 元 素来 自 参 数 传 入 
的 各 个 可 和 迭代 对 象 。 如 果 不 熟悉 zip 函数 ， 请 阅读 “出 色 的 zip 函数 ” 附 
注 栏 。 前 面 比较 长 度 的 训 试 是 有 必要 的 ， 因 为 一 旦 有 一 个 输入 耗 

JS, zip 函数 会 立即 停止 生成 值 ， 而 且 不 发 出 警告 。 


O 只 要 有 两 个 分 量 不 同 ， 返 回 False， 退 出 。 

人 否则， 对象 是 相等 的 。 
示例 10-13 的 效率 很 好 ， 不 过 用 于 计算 聚合 值 的 整个 for 循环 可 以 蔡 换 
成 一 行 all 函数 调用 : 如 果 所 有 分 量 对 的 比较 结果 都 是 True， 那 么 结 


果 就 是 True。 只 要 有 一 次 比较 的 结果 是 False，all 函数 就 返回 
False。 使 用 all 函数 实现 _eq__ 方法 的 方式 如 示例 10-14 所 示 。 


示例 10-14 使 用 zip 和 all 函数 实现 Vector. eq Wik, 2 
辑 与 示例 10-13 一 样 


def eq (self, other): 


return len(self) == len(other) and all(a == b for a, b in zip(self, other 


注意 ， 首 先 要 检查 两 个 操作 数 的 长 度 是 否 相 同 ， 因 为 zip 函数 会 在 最 短 
的 那个 操作 数 耗 尽 时 停止 。 


我 们 选择 在 vector_v4.py 中 采用 示例 10-14 PEMAI _eq_ 方法 。 


本 章 最 后 要 像 Vector2d 类 那样 ， 为 Vector 类 实现 format__ 77 


出 色 的 zip 函数 


使 用 for 循环 迭代 元 系 不 用 处 理 索 引 变 量 ， 还 能 避免 很 多 缺陷 ， 但 
是 需要 一 些 特殊 的 实用 函数 协助 。 其 中 一 个 是 内 置 的 zip 函数 。 使 
用 zip 函数 能 轻松 地 并 行 迭 代 两 个 或 更 多 可 帮 代 对 象 ， 它 返回 的 元 
分 别 对 应 各 个 并 行 输 入 中 的 一 个 元 素 。 如 示例 
10-15 所 未 。 


A Zip 函数 的 名 字 取 目 拉链 系 结 物 〈zipper fastener) ， 因 为 
这 个 物品 用 于 把 两 个 拉链 边 的 链 牙 咬合 在 一 起 ， 这 形象 地 说 明 
J zip(left, right) 的 作用 。zip 函数 与 文件 压缩 没有 关 


ZAIN O 


示例 10-15 zip 内 置 函 数 的 使 用 示例 


>>> zip(range(3), 'ABC') # © 
<zip object at 0x10@63ae48> 
>>> list(zip(range(3), 'ABC')) #@ 


[(@, 'A'), (1, 'B'), (2, 'C')] 

>>> list(zip(range(3), 'ABC', [@.0, 1.1, 2.2, 3.3])) # © 

[(@, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2)] 

>>> from itertools import zip longest # @ 

>>> list(zip_longest(range(3), ‘ABC', [@.0, 1.1, 2.2, 3.3], fillvalue=-1)) 
[(@, 'A', 0.0), (1, 'B', 1.1), (2, CC， 2.2)， (-1, -1, 3.3)] 


Q zip 函数 返回 一 个 生成 器 ， 按 需 生 成 元 组 。 
OW 为 了 和 输出， 构建 一 个 列表 ; 通常 ， 我 们 会 迭代 生成 器 。 


a 奇怪 的 特性 : Sa —P aE OW AER, ERA 
A = iE 


@ itertools.zip_longest 函数 的 行为 有 所 不 同 : 使 用 可 选 的 
fillvalue (默认 值 为 None) 填充 缺失 的 值 ， 因 此 可 以 继续 产 
出 ， 直 到 最 长 的 可 迭代 对 象 耗 尽 。 


为 了 避免 在 for 循环 中 手动 处 理 索 引 变 量 ， 还 经 常 使 用 内 置 的 
enumerate 生成 器 函数 。 如 有 果 你 不 熟悉 enumerate 函数 ， 一 定 要 
阅读 “Build-in Functions” 文 档 

Chttps://docs. seal org/3/library/functions.html#enumerate) 。 内 置 的 
zip 和 enumerate 函数 ， 以 及 标准 库 中 其 他 几 个 生成 器 函数 在 
14.9 节 讨 论 。 


至 少 对 我 来 说 ， 这 是 奇怪 的 。 我 认为 ， 当 组 合 不 同 长 度 的 可 壕 代 对 象 时 ，zip 应 该 抛 出 


ValueError. 


10.7 Vector 类 第 5 版 : 格式 化 


Vector 类 的 ”format ”方法 与 Vector2d 类 的 相似 ， 但 是 不 使 用 极 
坐标 ， 而 使 用 球面 坐标 〈 也 叫 超 球面 坐标 ) ， 因 为 Vector Rick n S^ 
维度 ， 而 超过 四 维 后 ， 球 体 变 成 了 “ 超 球 体 "。8 因此 ， 我 们 会 把 自 定义 
的 格式 后 级 由 'p' 变 成 'h'。 


8Wolfram Mathworld 网 站 中 有 一 篇 介绍 超 球体 的 文章 
Chttp:/mathworld.wolfram.conyHypersphere.html) ; 维基 百科 会 把 “ 超 球体 ” 词 条 重 定向 到 “nn A 
球体 ” 词 条 (http;//en.wikipedia.org/wiki/N-sphere) 。 


A 9.5 市 说 过 ， 扩 展 格式 规范 微 语言 
Chttps://docs.python.org/3/library/string.html#formatspec) 时 ， 最 好 避 
免 重用 内 置 类 型 支持 的 格式 代码 。 这 里 对 微 语言 的 扩展 还 会 用 到 浮 
点 数 的 格式 代码 'eEfFgGn%'， 而 且 保 持原 意 ， 因 此 绝对 要 避免 重 
用 代码 。 整 数 使 用 的 格式 代码 有 'bcdoxXn' ， 字 符 串 使 用 的 是 
's'。 在 Vector2d 类 中 ， 我 选择 使 用 'p' 表示 极 坐 标 。 使 用 'h' 
表示 超 球 面 坐标 Chyperspherical coordinate) 是 个 不 错 的 选择 。 


例如 ， 对 四 维 空间 (len(v) == 4) 中 的 Vector SRR, 'h' 代码 
得 到 的 结果 是 这 样 : <r，0@;，0，,，03>。 其 中 , r 是 模 Cabs(v)) ， 余 
下 三 个 数 是 角 坐 标 ©. D, 和 D. 


下 面 几 个 示例 摘自 vector v5.py 的 doctest〈 人 参见 示 例 10-16) ， 是 四 维 
球面 坐标 格式 : 


>>> format(Vector([-1, -1, -1, -1]), 'h') 
'<2.0, 2.0943951023931957, 2.186276035465284, 3.9269908169872414>' 
>>> format(Vector([2, 2, 2, 2]), '.3eh') 


'<4.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 
>>> format(Vector([@, 1, ©, @]), '@.5fh') 
'<1.00000, 1.57080, 0.00000, @.e0000>' 


在 小 幅 改 动 _format_ ”方法 之 前 ， 我 们 要 定义 两 个 辅助 方法 : 一 个 是 
angle(n)， 用 于 计算 某 个 角 坐 标 〈 如 @i) ; 另 一 个 是 angles()， 返 


回 由 所 有 角 坐 标 构成 的 可 迭代 对 象 。 我 们 不 会 讲解 其 中 涉及 的 数学 原 
理 ， 如 果 你 好 奇 的 话 ， 可 以 查看 维基 百科 中 的 “in 维 球体 ” 词 条 

Chttps://en.wikipedia.org/wiki/N-sphere) ， 那 里 有 几 个 公式 ， 我 就 是 使 
用 它们 把 Vector 实例 分 量 数 组 内 的 笛 卡 儿 华 标 转换 成 球面 坐标 的 。 


示例 10-16 是 vector_v5.py 脚本 的 完整 代码 ， 包 含 自 10.2 节 以 来 实现 的 
所 有 代码 和 本 节 实 现 的 目 定 义 格式 。 


示例 10-16 vector v5.py: Vector 类 最 终 版 的 doctest 和 全 部 代 
AY; 带 标 号 的 那 几 行 是 为 了 文 持 format_ _ 方法 而 添加 的 代码 


A multidimensional ``Vector`` class, take 5 
A ``Vector`` is built from an iterable of numbers:: 


>>> Vector([3.1, 4.2]) 

Vector([3.1, 4.2]) 

>>> Vector((3, 4, 5)) 

Vector([3.0, 4.0, 5.0]) 

>>> Vector (range(1@) ) 

Vector ([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 


Tests with two dimensions (same results as ~~ vector2d vi.py ~):: 


>>> v1 = Vector([3, 4]) 

>>> X, y=vi 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector ([3.0, 4.0]) 

>>> vi_clone = eval(repr(v1)) 

>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 

b ' d\ \ XOA \ \ XOA \ \ XOA \ \ XOA \ \ XOA \ XOA \ \xO8A\ \ XOA \ \ XOA \ \ XOA \ XOAN \XOO\ \XOO\\XL 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector([@, @])) 
(True, False) 


Test of ``.frombytes()`` class method: 


>>> vi_clone = Vector. frombytes(bytes(v1) ) 
>>> vi_clone 

Vector([3.0, 4.0]) 

>>> v1 == vi_clone 

True 


Tests with three dimensions:: 


>>> v1 = Vector([3, 4, 5]) 

>>> X, y, Z= v1 

>>> X, yY, Z 

(3.0, 4.0, 5.0) 

>>> v1 

Vector ([3.0, 4.0, 5.0]) 

>>> vi_clone = eval(repr(v1)) 
>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0, 5.0) 

>>> abs(v1) # doctest:+ELLIPSIS 
7.071067811... 

>>> bool(v1), bool(Vector([@, ©, @])) 
(True, False) 


Tests with many dimensions:: 


>>> v7 = Vector(range(7) ) 

>>> v7 

Vector ([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 
>>> abs(v7) # doctest:+ELLIPSIS 
9.53939201... 


Test of ~~. bytes ‘~ and ``.frombytes()`` methods:: 


>>> v1 = Vector([3, 4, 5]) 

>>> vi_clone = Vector. frombytes(bytes(v1) ) 
>>> vi_clone 

Vector([3.0, 4.0, 5.0]) 

>>> v1 == vi_clone 

True 


Tests of sequence behavior:: 


>>> v1 = Vector([3, 4, 5]) 

>>> len(v1) 

3 

>>> v1[@], vi[len(v1)-1], v1[-1] 
(3.0, 5.0, 5.0) 


Test of slicing:: 


>>> v7 = Vector(range(7) ) 

>>> v7[-1] 

6.0 

>>> v7[1:4] 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] 

Vector([6.0]) 

>>> v7[1,2] 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 


Tests of dynamic attribute access:: 


>>> v7 = Vector(range(1@) ) 
>>> V7 .X 

0.0 

>>> V7.y, V7.Z, V7.t 

(1.0, 2.0, 3.0) 


Dynamic attribute lookup failures: : 


>>> v7.k 
Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'k' 
>>> v3 = Vector(range(3)) 

>>> v3.t 

Traceback (most recent call last): 

AttributeError: 'Vector' object has no attribute 't' 
>>> v3.spam 

Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'spam' 


Tests of hashing:: 


>>> v1 = Vector([3, 4]) 

>>> v2 = Vector([3.1, 4.2]) 

>>> v3 = Vector([3, 4, 5]) 

>>> v6 = Vector(range(6) ) 

>>> hash(v1), hash(v3), hash(v6) 
(7, 2, 1) 


Most hash values of non-integers vary from a 32-bit to 64-bit CPython build:: 


>>> import sys 
>>> hash(v2) == (384307168202284039 if sys.maxsize > 2**32 else 357915986 
True 


Tests of `` format()`` with Cartesian coordinates in 2D:: 


>>> v1 = Vector([3, 4]) 
>>> format (v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2f') 
'(3.00, 4.00)' 

>>> format(v1, '.3e') 
'(3.000e+00, 4.000€+00)' 


Tests of ”format() ”with Cartesian coordinates in 3D and 7D:: 


>>> v3 = Vector([3, 4, 5]) 

>>> format (v3) 

'(3.0, 4.0, 5.0)' 

>>> format (Vector (range(7)) ) 

'(8.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0)' 


Tests of ”format() ”with spherical coordinates in 2D, 3D and 4D:: 


>>> format(Vector([1, 1]), 'h') # doctest:+ELLIPSIS 
"<1.414213..., @.785398...>' 

>>> format (Vector([1, 1]), '.3eh') 

"<1.414e+00, 7.854e-01>' 

>>> format (Vector([1, 1]), '@.5fh') 

"<1.41421, @.7854@>' 

>>> format(Vector([1, 1, 1]), 'h') # doctest:+ELLIPSIS 
"<1.73205..., @.95531..., 0@.78539...>' 


>>> format(Vector([2, 2, 2]), '.3eh') 

"<3.464e+00, 9.553e-01, 7.854e-01>' 

>>> format(Vector([@, ©, @]), '@.5fh') 

'<0.00000, 0.00000, @.00000>' 

>>> format(Vector([-1, -1, -1, -1]), 'h') # doctest:+ELLIPSIS 
'<2.0, 2.09439..., 2.18627..., 3.92699...>' 

>>> format(Vector([2, 2, 2, 2]), '.3eh') 

'<4.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 

>>> format(Vector([@, 1, ©, @]), '@.5fh') 

'<1.00000, 1.57080, 0.00000, ©.00000> ' 


from array import array 
import reprlib 

import math 

import numbers 

import functools 

import operator 

import itertools @ 


class Vector: 
typecode = 'd' 


def _init (self, components): 
self. components = array(self.typecode, components) 


def _iter_ (self): 
return iter(self. components) 


def _repr_ (self): 
components = reprlib.repr(self. components) 
components = components[ components. find('['):-1] 
return 'Vector({})'.format (components) 


def _str (self): 
return str(tuple(self)) 


def _bytes (self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components)) 


def _eq_ (self, other): 
return (len(self) == len(other) and 
all(a == b for a, b in zip(self, other))) 


def _hash (self): 
hashes = (hash(x) for x in self) 


return functools.reduce(operator.xor, hashes, @) 


def _abs (self): 
return math.sqrt(sum(x * x for x in self)) 


def bool (self): 
return bool(abs(self)) 


def _len_ (self): 
return len(self._components) 


def _ getitem_(self, index): 

cls = type(self) 

if isinstance(index, slice): 
return cls(self. components[index]) 

elif isinstance(index, numbers.Integral): 
return self. components[ index] 

else: 
msg = '{. name } indices must be integers’ 
raise TypeError(msg.format(cls) ) 


shortcut_names = 'xyzt' 


def _ getattr__(self, name): 

cls = type(self) 
if len(name) == 

pos = cls.shortcut_names.find(name) 

if 6 <= pos < len(self. components): 

return self. _components|[pos ] 

msg = '{.__name_!r} object has no attribute {!r}' 
raise AttributeError(msg.format(cls, name) ) 


def angle(self, n): @ 
r = math.sqrt(sum(x * x for x in self[n:])) 
a = math.atan2(r, self[n-1]) 
if (n == len(self) - 1) and (self[-1] < @): 
return math.pi * 2 - a 
else: 
return a 


def angles(self): © 
return (self.angle(n) for n in range(1, len(self))) 


def _ format__(self, fmt_spec=''): 
if fmt_spec.endswith('h'): # j 
fmt_spec = fmt_spec[:-1] 
coords = itertools.chain([abs(self)], 
self.angles()) @ 
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outer_fmt = '<{}>' © 
else: 

coords = self 

outer fmt = '({})' © 
components = (format(c, fmt spec) for c in coords) @ 
return outer_fmt.format(', '.join(components)) © 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[®@]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) 


QO NS _format__ 方法 中 使 用 chain 函数 ， 导 入 itertools 模 
块 。 


O 使 用 “n 维 球体 ” 词 条 Chttp://en.wikipedia.org/wiki/N-sphere) 中 的 公式 
计算 某 个 角 坐 标 。 


O 创建 生成 器 表达 式 ， 按 需 计 算 所 有 角 坐 标 。 


@ 使 用 itertools.chain 函数 生成 生成 器 表达 式 ， 无 颖 迭代 问 量 的 模 
和 各 个 角 坐 标 。 


O 配置 使 用 尖 括 号 显示 球面 坐标 。 

@ 配置 使 用 圆 括号 显示 笛 卡 儿 坐 标 。 

O 创建 生成 器 表达 式 ， 按 需 格式 化 各 个 坐标 元 素 。 
O 把 以 吉 号 分 隔 的 格式 化 分 量 插入 尖 括 号 或 圆 括号 。 


` 我 们 在 format. angle fil angles 中 大 量 使 用 了 生成 器 
表达 式 ， 不 过 我 们 的 目的 是 让 Vector 类 的 format _ 方法 与 
Vector2d 类 处 在 同一 水 平 上 上。 第 14 章 讨论 生成 器 时 会 使 用 
Vector 类 中 的 部 分 代码 举例 ， 然 后 详细 说 明生 成 器 的 技巧 。 


本 章 的 任务 到 此 结束 。 第 13 章 会 改进 Vector 类 ， 让 它 支 持 中 级 运算 
符 。 本 章 的 目的 是 探讨 如 何 编写 集合 类 广泛 使 用 的 几 个 特殊 方法 。 


10.8 本章 小 结 


本 章 所 举 的 Vector 示例 故意 与 Vector2d 兼容 ， 不 过 二 者 的 构造 方法 
签名 不 同 ，Vector 类 的 构造 方法 接受 一 个 可 迭代 的 对 象 ， 这 与 内 置 的 
序列 类 型 一 样 。Vector 的 行为 之 所 以 像 序列 ， 是 因为 它 实 现 了 
getitem _ 和 __len 方法 ; 借 此 ， 我 们 讨论 了 协议 ， 这 是 鸭子 类 
型 语言 使 用 的 非 正式 接口 。 


然后 ， 我 们 说 明了 my_seq[a:b:c] 句法 背后 的 工作 原理 : 创建 
slice(a, b, c) 对 象 ， 交 给 ”getitem _ 方法 处 理 。 了 解 这 一 点 之 
后 ， 我 们 让 Vector 正确 处 理 切 片 ， 像 符合 Python 风格 的 序列 那样 返回 
新 的 Vector 实例 。 


接 下 来 ， 我 们 为 Vector 实例 的 头 几 个 分 量 提 供 了 只 读 访 问 功能 ， 使 用 
my_vec.x 这 样 的 表示 法 。 这 一 点 通过 ”getattr _ 方法 实现 。 实 现 这 
一 功能 之 后 ， 用 户 会 想 通 过 my_vec.x = 7 这样 的 写法 为 头 几 个 分 量 赋 
值 一 一 这 是 一 个 潜在 的 缺陷 。 为 了 解决 这 个 问题 ， 我 们 又 实现 了 

_ setattr_ 方法， 通过 它 禁 止 为 单字 母 属性 赋值 。 大 多 数 时 候 ， 如 
Re MS _getattr _ 方法 ， 那 么 也 要 定义 setattr _ 方法， 这样 
才能 避免 行为 不 一 致 。 


实现 hash ”方法 特别 适合 使 用 functools .reduce 函数 ， 因 为 我 们 
要 把 异 或 运算 符 ^ 依次 应 用 到 各 个 分 量 的 散 列 值 上 ， 生 成 整个 向 量 的 聚 
合 散 列 值 。 在 hash_ ”方法 中 使 用 reduce 函数 之 后 ， 我 们 又 使 用 内 
置 的 归 约 函数 all 实现 了 效率 更 高 的 _eq_ ”方法 。 


Vector 类 的 最 后 一 项 改进 是 在 Vector2d 的 基础 上 重新 实现 

_ format 方法， 这 一 次 ， 除 了 文 持 笛 卡 儿 坐标 ， 我 们 还 文 持 了 球面 
坐标 。 为 了 定义 _ format _ 方法 及 其 辅助 方法 ， 我 们 用 到 了 很 多 数学 
知识 和 几 个 生成 器 ， 但 这 些 是 实现 细节 。 第 14 章 会 再 次 讨论 生成 器 。 
最 后 一 节 的 目的 是 文 持 上 自 定 义 格式 ， 从 而 竞 现 承诺 ， 让 Vector 与 
Vector2d 兼容 ， 此 外 还 能 做 更 多 的 事情 。 


与 第 9 章 一 样 ， 我 们 经 常 分 析 Python 标准 对 象 的 行为 ， 然 后 进行 模仿 ， 
让 Vector 的 行为 符合 Python 风格 。 


第 13 HORA Vector 实现 几 个 中 级 运算 符 。 第 13 章 使 用 的 数学 知识 比 
angle() 方法 用 到 的 简单 多 了 ， 但 是 通过 了 解 Python PARIS FAY 

作 方 式 ， 我 们 对 面向 对 象 设计 的 认识 将 更 进一步 。 讨 论 运 算 符 重 载 之 

前 ， 我 们 将 先 定义 一 个 类 ， 说 明 如 何 使 用 接口 和 继承 组 织 多 个 类 一 一 这 
是 第 11 章 和 第 12 章 的 话题 。 


10.9 ”延伸 阅读 


Vector 类 中 的 大 多 数 特殊 方法 在 第 9 章 定 义 的 Vector2d 类 中 也 有 ， 
因此 前 一 半 给 出 的 延伸 阅读 材料 同样 适合 本 章 。 


强大 的 高 阶 函 数 reduce EUER, Ri RE KAEA. ELA 
IA ZS ILA BLA “Fold (higher-order function)” ii] & 
Chttps://en.wikipedia.org/wiki/Fold (higher-order function)) 。 这 篇 文章 
展示 了 高 阶 函 数 的 用 途 ， 着 重 说 明了 有 具有 递归 数据 结构 的 函数 式 语 言 。 
这 篇 文章 中 还 有 一 个 表格 ， 列 出 了 很 多 编程 语言 中 起 合拢 作用 的 函数 。 


把 协议 当 作 非 正式 的 接口 


协议 不 是 Python 发 明 的 。Smalltalk 团队 ， 也 就 是 “面向 对 象 ” 的 发 明 
者 ， 使 用 “协议 ”这 个 词 表示 现在 我 们 称 之 为 接口 的 特性 。 某 些 
Smalltalk 编程 环境 允许 程序 员 把 一 组 方法 标记 为 协议 ， 但 这 只 不 过 
是 一 种 文档 ， 用 于 辅助 导航 ， 语 言 不 对 其 施加 特定 措施 。 因 此 ， 癌 
熟悉 正式 (而 且 编 译 器 会 施加 措施 ) 接口 的 人 解释 “协议 ”时 ， 我 会 
简单 地 说 它 是 “ 非 正 式 的 接口 ”。 


动态 类 型 语言 中 的 既定 协议 会 目 然 进化 。 所 谓 动态 类 型 是 指 在 运行 
时 检查 类 型 ， 因 为 方法 签名 和 变量 没有 静态 类 型 信息 。Ruby 是 一 
门 重要 的 面向 对 象 动态 类 型 语言 ， 它 也 使 用 协议 。 


在 Python 文档 中 ， 如 果 看 到 “文件 类 对 象 * 这 样 的 表述 ， 通 常 说 的 束 
是 协议 。 这 是 一 种 简短 的 说 法 ， 意 思 是 :“ 行 为 基本 与 文件 一 致 ， 
实现 了 部 分 文件 接口 ， 满 足 上 下 文 相关 需求 的 东西 。” 

你 可 能 觉得 只 实现 协议 的 一 部 分 不 够 严谨 ， 但 是 这 样 做 的 优点 是 简 
单 。“Data Model” — #2 AY) 3.3 节 


Chttps://docs.python.org/3/reference/datamodel.html#special-method- 
names) 建议 : 


模仿 内 置 类 型 实现 类 时 ， 记 住 一 点 : 模仿 的 程度 对 建 模 的 对 象 


来 说 合理 即 可 。 例 如 ， 有 些 序列 可 能 只 需要 获取 单个 元 素 ， 而 
不 必 提 取 切 片 。 


一 一 Python 语言 参考 手册 中 “Data Model” 一 章 


不 要 为 了 满足 过 度 设 计 的 接口 契约 和 让 编译 器 开心 ， 而 去 实现 不 需 
要 的 方法 ， 我 们 要 遵守 KISS 原则 
(http://en.wikipedia.org/wiki/KISS principle) 。 


第 11 章 还 会 讨论 协议 和 接口 ， 这 正 是 那 一 章 的 主要 话 
鸭子 类 型 的 起 源 


我 相信 Ruby 社区 在 “鸭子 类 型 ”这 个 术语 的 推广 过 程 中 起 了 主要 作 
用 ， 因 为 他 们 向 大 量 Java 使 用 者 宣扬 了 这 个 说 法 。 但 是 ， 在 Ruby 
或 Python 流行 起 来 之 前 ，Python 就 使 用 这 个 术语 了 。 根 据 维基 百 
科 ， 在 面向 对 象 编程 中 较 早 使 用 鸭子 作 比 喻 的 人 是 Alex Martelli, 
在 他 于 2000 年 7 月 26 日 发 到 Python-list 中 的 一 篇 文章 
里 : “polymorphism (was Re: Type checking in 
python?)” Chttps://mail.python.org/pipermail/python-list/2000- 
July/046184.html) 。 本 章 开 头 引用 的 那 句 话 就 出 自 那 篇 文章 。 如 采 
你 想 知道 “ 蚂 子 类 型 "这 个 术语 的 真正 起 源 ， 以 及 很 多 编程 语言 对 这 
个 面向 对 象 概念 的 运用 ， 请 阅读 维基 百科 中 的 “Duck typing”* 词 条 
(http://en.wikipedia.org/wiki/Duck typing) o 


安全 的 format 方法， 增强 可 用 性 


实现 format _ 方法 时 ， 我 们 没有 采取 措施 防范 Vector 实例 拥 
AKENDE, MIE _repr _ 方法 中 我 们 使 用 reprlib 做 了 预 
防 。 这 是 因为 repr() 函数 用 于 调试 和 记录 日 志 ， 所 以 必须 生成 可 
用 的 输出 ; 而 format__ 方法 用 于 问 最 终 用 户 显 示 输 出 ， 他 们 大 
概 想 看 到 整个 Vector。 如 果 你 觉得 这 样 做 危险 ， 可 以 再 为 格式 规 
范 微 语言 实现 一 个 扩展 。 


如 果 是 我 ， 我 会 这 么 做 : 默认 情况 下 ， 格 式 化 的 Vector 实例 显示 
有 限 个 分 量 ， 比 如 说 30 个 。 如 果 元 素数 量 超过 上 限 ， 默 认 的 行为 
是 像 reprlib 那样 ， 截 断 超出 的 部 分 ， 使 用 . . . 表示 。 然 而 ， 如 
果 格 式 说 明 符 后 面 有 特殊 的 * 代码 (意思 是 “全 部 ”) ， 那 么 就 不 限 


& 


[e] 


制 显 示 的 元 系数 量 。 因 此 ， 用 户 在 不 知情 的 情况 下 不 会 家 特别 长 的 
输出 吓 到 。 如 果 默 认 的 上 限 碍 事 ， 那 么 ... 的 存在 对 用 户 是 个 提 
醒 ， 用 户 研究 文档 后 会 有 发 现 * 格式 代码 。 


如 果 你 实现 了 ， 请 向 本 书 的 GitHub 仓库 
(https://github.conyfluentpython/example-code ) 发 一 个 拉 取 请 求 。 


寻找 符合 Python 风格 的 求 和 方式 


就 像 * 什 么 是 美 * 没 有 确切 的 答案 一 样 , “什么 是 Python 风格 ”也 没有 
标准 答案 。 如 果 回 答 “ 地 道 的 Python (我 通常 会 这 样 说 ) ， 不 能 让 
人 100% 满意 ， 因 为 对 你 来 说 是 “地 道 的 ”， 在 我 看 来 却 可 能 不 是 。 
但 我 可 以 肯定 的 是 , “地 道 " 并 不 是 指使 用 最 鲜 为 人 知 的 语言 特性 。 


Python-list (https://mail.python.org/mailman/listinfo/python-list) 中 有 
一 篇 发 表 于 2003 年 4 月 的 话题 ， 题 为 "Pythonic Way to Sum n-th List 
Element?” Chttps://mail.python.org/pipermail/python-list/2003- 
April/218568 html) 。 这 个 话题 与 本 章 讨论 的 reduce 函数 有 关 。 


该 话题 的 发 起 人 Guy Middleton 说 他 不 喜欢 使 用 lambda 表达 式 ， 
问 下 面 这 个 方案 有 没有 办 法 改进 : ? 


>>> my_list = [[1, 2, 3], [40, 50, 60], [9, 8, 7]] 
>>> import functools 


>>> functools.reduce(lambda a, b: a+b, [sub[1] for sub in my_list]) 
60 


这 段 代 码 有 很 多 习惯 用 法 : lambda, reduce 和 列表 推导 。 最 终 ， 
这 可 能 会 变 成 人 气 竞 赛 ， 因 为 它 冒 犯 了 讨厌 lambda 的 人 和 看 不 上 
列表 推导 的 人 一 一 这 两 种 人 都 很 多 。 


如 果 使 用 lambda， 或 许 就 不 应 该 使 用 列表 推导 一 一 过 滤 除 外 ， 但 
这 不 是 过 小 。 


下 面 是 我 给 出 的 方案 ， 这 能 讨 得 lambda 拥护 者 的 欢心 : 


>>> functools.reduce(lambda a, b: a + b[1], my_list, @) | 
60 


[L úE 


我 没有 参与 那个 话题 ， 而 且 我 不 会 在 真实 的 代码 中 使 用 上 述 方案 ， 
因为 我 非常 不 喜欢 lambda 表达 式 。 这 里 只 是 为 了 举例 说 明 不 使 用 
列表 推导 怎么 做 。 


第 一 个 答案 是 Fernando Perez 给 出 的 ， 他 是 了 Python 的 创建 者 ， 他 的 
答案 强调 了 NumPy 支持 n 维 数组 和 维 切片 : 


>>> import numpy as np 
>>> my_array = np.array(my_list) 


>>> np.sum(my_array[:, 1]) 
60 


我 觉得 Perez ORIRE, Ait Guy Middleton #242 Paul Rubin 和 
Skip Montanaro 给 出 的 下 述 方案 : 


>>> import operator 
>>> functools.reduce(operator.add, [sub[1] for sub in my_list], 0) 
60 


baja, Evan Simpson 问 道 : “这 样 做 有 什么 错 ? ” 


>>> total = 6 
>>> for sub in my_list: 
total += sub[1] 


>>> total 
60 


许多 人 都 觉得 这 也 很 符合 Python 风格 。Alex Martelli 甚至 说 ， 
Guido 或 许 就 会 这 么 做 。 


我 喜欢 Evan Simpson 的 代码 ， 不 过 也 喜欢 David Eppstein 对 此 给 出 
的 评论 : 


如 果 你 想 计算 列表 中 各 个 元 系 的 和 ， 写 出 的 代码 应 该 看 起 来 像 
FEET ICR CA”, MANES, AE hee 请 再 


执行 一 系列 求 和 操作 ”。 如 果 不 能 站 在 一 定 高 度 上 表明 意图 ， 
证 语言 去 关注 低层 操作 ， 那 么 要 高 级 语言 干 嘛 ? 


之 后 Alex Martelli 又 建议 : 


求 和 操作 经 常 需要 ， 我 不 介意 Python 提供 一 个 这 样 的 内 置 函 
数 。 但 是 ， 在 我 看 来 ，“reduce(operator.add, .…” 不 是 好 方法 〈 作 
为 一 名 APL 老 程 序 员 和 FP 语言 的 爱好 者 ， 我 应 该 喜欢 ， 但 是 
我 并 不 喜欢 ) 。 


随后 ，Alex 建议 提供 并 实现 了 sum() 函数 。 这 次 讨论 之 后 三 个 
月 ，Python 2.3 就 内 置 了 这 个 函数 。 因 此 ，Alex 喜欢 的 句法 变 成 了 
标准 : 


>>> sum([sub[1] for sub in my_list]) 
60 


下 一 年 年 末 (2004 年 11 月 ) Python2.4 发 布 了 ， 这 一 版 引入 了 生 
成 器 表达 式 。 因 此 ， 在 我 看 来 ，Guy Middleton 那个 问题 目前 最 符合 
Python 风格 的 答案 是 : 


>>> sum(sub[1] for sub in my_list) 
60 


这 样 写 不 仅 比 使 用 reduce 函数 更 易 阅 读 ， 而 且 还 能 避免 空 序列 导 
致 的 陷阱 :sum([]) 的 结果 是 6， 就 这 么 简单 。 


在 这 次 讨论 中 ，Alex Martelli 指出 ，Python 2 内 置 的 reduce 函数 成 
事 不 足 败 事 有 余 ， 因 为 它 推荐 的 地 道 编 程 方式 难以 理解 。 他 的 观点 
最 有 说 服 力 : Python 3 把 reduce 函数 移 到 functools 模块 中 了 。 


当然 ，functools.reduce 函数 仍 有 它 的 作用 。 实 现 
Vector .hash_ ”方法 时 我 惑 用 了 和 它 ， 我 觉得 我 的 实现 方式 算得 
上 符合 Python 风格 。 


“为 了 在 此 展示 ， 我 稍微 修改 了 这 段 代 码 ， 因 为 在 2003 年 ，reduce 是 内 置 函 数 ， 而 在 Python 3 
要 导入 。 此 外 ， 我 把 x 和 y 换 成 了 my_list 和 sub (RFE) 。 


第 11 章 BOA: 从 协议 到 抽象 基 
R 


抽象 类 表示 接口 。! 


Bjarne Stroustrup 
EEC 


‘Bjarne Stroustrup, The Design and Evolution of C++ (Addison-Wesley, 1994), p. 278. 


本 章 讨论 的 话题 是 接口 : 从 鸭子 类 型 的 代表 特征 动态 协议 ， 到 使 接口 更 
明确 、 能 验证 实现 是 否 符合 规定 的 抽象 基 类 (Abstract Base Class, 
ABC) 。 


如 果 用 过 Java、C# 或 类 似 的 语言 ， 你 会 觉得 鸭子 类 型 的 非 正 式 协议 很 新 
奇 。 但 是 对 长 时 间 使 用 Python 或 Ruby 的 程序 员 来 说 ， 这 是 接口 的 “ 常 

规 ” 方 式 ， 新 知识 是 抽象 基 类 的 严格 规定 和 类 型 检查 。Python 语言 诞生 

15 年 后 ，Python 2.6 才 引 入 抽象 基 类 。 


本 章 先 说 明 Python 社区 以 往 对 接口 的 不 严谨 理解 :部 分 实现 接口 通常 被 
D 。 我 们 将 通过 几 个 示例 强调 鸭子 类 型 的 动态 本 性 ， 从 而 
澄清 这 一 点 。 


接着 ， 我 邀请 Alex Martelli 写 了 一 篇 短文 ， 对 抽象 其 类 做 了 介绍 ， 还 为 
Python 编程 的 一 个 新 趋势 下 了 定义 。 本 章 余下 的 内 容 专门 讲解 抽象 基 

类 。 首 先 ， 本 章 说 明 抽 象 基 类 的 常见 用 途 : 实现 接口 时 作为 超 类 使 用 。 
然后 ， 说 明 抽 象 基 类 如 何 检 查 具 体 子 类 是 否 符合 接口 定义 ， 以 及 如 何 使 
用 注册 机 制 声 明 一 个 类 实现 了 某 个 接口 ， 而 不 进行 子 类 化 操作 。 最 后 ， 
说 明 如 何 让 抽象 基 类 自动 “识别 ”任何 符合 接口 的 类 -一 不 进行 子 类 化 或 
注册 。 


我 们 将 实现 一 个 新 抽象 基 类 ， 看 看 它 的 运作 方式 。 但 是 ， 我 和 Alex 
Martelli 都 不 建议 你 目 己 编写 抽象 基 类 ， 因 为 很 容易 过 度 设 计 。 


Be 抽象 基 类 与 描述 符 和 元 类 一 样 ， 是 用 于 构建 框架 的 工具 。 
此 ， 只 有 少数 Python 开发 者 编写 的 抽象 基 类 不 会 对 用 户 施加 不 必要 
的 限制 ， 让 他 们 做 无 用 功 。 


下 面 我 们 从 Python 风格 的 角度 探讨 接口 。 


11.1 Python 文化 中 的 接口 和 协议 


引入 抽象 基 类 之 前 ，Python 就 已 经 非常 成 功 了 ， 即 便 现 在 也 很 少 有 代码 
使 用 抽象 基 类 。 第 1 章 就 已 经 讨论 了 鸭子 类 型 和 协议 。 在 10.3 节 ， 我 
人 口 ， 是 让 Python 这 种 动态 类 型 语言 实现 多 态 
方式。 


接口 在 动态 类 型 语言 中 是 怎么 运作 的 呢 ? 首先 ， 基 本 的 事实 是 ，Python 
语言 没有 interface 关键 字 ， 而 且 除 了 抽象 基 类 ， 每 个 类 都 有 接口 : 
类 实现 或 继承 的 公开 属性 (方法 或 数据 属性 ) ， 包 括 特 殊 方 法 ， 如 
”getitem 或 add 。 


按照 定义 ， 受 保护 的 属性 和 私有 属性 不 在 接口 中 : 即便 “ 受 保护 的 ”属性 
也 只 是 采用 命名 约定 实现 的 〈 单 个 前 导 下 划 线 ) ; 私有 属性 可 以 轻松 地 
访问 (参见 9.7 市 ) ， 原 因 也 是 如 此 。 不 要 违背 这 些 约定 。 


另 一 方面 ， 不 要 觉得 把 公开 数据 属性 放 入 对 象 的 接口 中 不 受 ， 因 为 如 果 
需要 ， 总 能 实现 读 值 方法 和 设 值 方法 ， 把 数据 属性 变 成 特性 ， 使 用 
obj .attr 句法 的 客户 代码 不 会 受到 影响 。Vector2d 类 就 是 这 么 做 
的 ， 示 例 11-1 是 Vector2d 类 的 第 一 版 ，x 和 y 是 公开 属性 。 


示例 11-1 vector2d v0.py: x 和 y 是 公开 数据 属性 (代码 与 示例 
9-2 相同 ) 


class Vector2d: 
typecode = 'd' 


def _init (self, x, y): 
self.x = float(x) 
self.y = float(y) 


def _iter (self): 
return (i for i in (self.x, self.y)) 


他 方法 〈 这 个 代码 清单 将 其 省 略 了 ) 


在 示例 9-7 中 ， 我 们 把 x 和 y 变 成 了 只 读 特 性 〈 见 示例 11-2) 。 这 是 一 


项 重大 重 构 ， 但 是 Vector2d 的 接口 基本 没 变 : 用 户 仍 能 读 取 


my_vector.x 和 my_vector.y。 


示例 11-2 vector2d_v3.py: 使 用 特性 实现 x Aly 完整 的 代码 清单 
参见 示例 9-9) 


class Vector2d: 
typecode = 'd' 


def init__(self, x, y): 
self. x = float(x) 
self. y = float(y) 


@property 
def x(self): 
return self. x 


@property 
def y(self): 
return self. y 


def _iter (self): 
return (i for i in (self.x, self.y)) 


他 方法 〈 这 个 代码 清单 将 其 省 略 了 ) 


关于 接口 ， 这 里 有 个 实用 的 补充 定义 : 对 象 公开 方法 的 子 集 ， 让 对 象 在 
系统 中 扮演 特定 的 角色 。Python 文档 中 的 “文件 类 对 象 ” 或 “可 和 迭代 对 
象 "就 是 这 个 意思 ， 这 种 说 法 指 的 不 是 特定 的 类 。 接 口 是 实现 特定 角色 
的 方法 集合 ， 这 样 理解 正 是 Smalltalk 程序 员 所 说 的 协议 ， 其 他 动态 语 
言 社 区 都 借鉴 了 这 个 术语 。 协 议 与 继承 没有 关系 。 一 个 类 可 能 会 实现 多 
个 接口 ， 从 而 让 实例 扮演 多 个 角色 。 


协议 是 接口 ， 但 不 是 正式 的 (只 由 文档 和 约定 定义 )， 因 此 协议 不 能 像 
正式 接口 那样 施加 限制 《本 章 后 面 会 说 明 抽象 基 类 对 接口 一 致 性 的 强 

Hil) 。 一 个 类 可 能 只 实现 部 分 接口 ， 这 是 允许 的 。 有 时 ， 某 些 API 只 要 
求 "文件 类 对 象 "返回 字 节 序列 的 .read () 方法 。 在 特定 的 上 下 文中 可 

能 需要 其 他 文件 操作 方法 ， 也 可 能 不 需要 。 


写作 本 书 时 ，Python 3 中 memoryview 的 文档 


(https://docs.python.org/3/library/stdtypes.html#typememoryview) 说 ， 它 
能 处 理 “ 文 持 缓冲 协议 的 对 象 "， 不 过 缓冲 协议 的 文档 是 针对 C API 
的 。bytearray 的 构造 方法 

(https://docs.python.org/3/library/functions.html#bytearray) 接受 “一 个 符 
BBE ATR. 如 今 ; 文档 正在 改变 用 词 ， 使 用 “ 字 节 序列 类 对 
象 ”这 样 更 加 友好 的 表述 。? 我 指出 这 一 点 是 为 了 强调 ， 对 Python 程序 
员 来 说 ,，“X 类 对 象 “X 协议 ”和 “X 接口 ?都 是 一 个 意思 。 


2405, Issue 16518:‘add buffer protocol to glossary” http://bugs.python.org/issue 16518) 做 的 就 是 这 
种 修改 ， 把 很 多 “ 文 持 缓冲 协议 / 接口 /API 的 对 象 ” 改 成 了 “ 字 贡 序列 类 对 象 "; “Other mentions 
of the buffer protocol” Chttp://bugs.python.org/issue22581) 也 是 如 此 。 


序列 协议 是 Python 最 基础 的 协议 之 一 。 即 便 对 象 只 实现 了 那个 协议 最 基 
本 的 一 部 分 ， 解 释 器 也 会 负 员 任 地 处 理 ， 如 下 一 节 所 示 。 


11.2 了 Python 喜欢 序列 


Python 数据 模型 的 哲学 是 尽量 文 持 基本 协议 。 对 序列 来 说 ， 即 便 是 最 简 
单 的 实现 ，Python 也 会 力求 做 到 最 好 。 


图 11-1 展示 了 定义 为 抽象 基 类 的 Sequence 正式 接口 。 


Container 
__ contains __ - 
__getitem__ 


lterable — Contains 
— iter _ 


__reversed _ 
index 
count 


图 11-1: Sequence 抽象 基 类 和 collections .abc 中 相关 抽象 类 的 
UML 类 图 ， 箭 头 由 子 类 指向 超 类 ， 以 斜体 显示 的 是 抽象 方法 


现在 ， 看 看 示例 11-3 中 的 Foo 类 。 它 没有 继承 abc.Sequence， 而 且 
只 实现 了 序列 协议 的 一 个 方法 : ”getitem (RAH len F 
a) 


示例 11-3 定义 getitem_ 方法， 只 实现 序列 协议 的 一 部 分 ， 
这 样 足够 访问 元 隶 、 返 代 和 使 用 in 运算 符 了 


>>> class Foo: 
def getitem (self, pos): 
return range(@, 30, 10)[pos] 


>>> f = Foo() 

>>> F[1] 

10 

>>> for i in f: print(i) 


>>> 20 in f 
True 
>>> 15 in f 
False 


虽然 没有 iter__ 方法， 但 是 Foo 实例 是 可 和 迭代 的 对 象 ， 因 为 发 现 有 
__getitem_ 方法 时 ，Python 会 调用 它 ， 传 入 从 8 开始 的 整数 索引 ， 
尝试 迭代 对 象 ( 这 是 一 种 后 备 机 制 )。 尺 管 没 有 实现 _contains_ 方 
法 ， 但 是 Python EEE Re, BEIR Foo 实例 ， 因 此 也 能 使 用 in 运算 
FF: Python 会 做 全 面 检查 ， 看 看 有 没有 指定 的 元 素 。 


综 上 ， 鉴 于 序列 协议 的 重要 性 ， 如 果 没 有 _ iter #l__contains__ 
方法 ，Python 会 调用 getitem_ 方法， 设法 让 迭代 和 in 运算 符 可 
用 。 


第 1 章 定义 的 FrenchDeck 类 也 没有 继承 abc.Sequence， 但 是 实现 了 
序列 协议 的 两 个 方法 : ”getitem 和 ”len 。 如 示例 11-4 所 示 。 


示例 11-4 ”实现 序列 协议 的 FrenchDeck 类 (代码 与 示例 1-1 相 
同 ) 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits "spades diamonds clubs hearts'.split() 


def _ init__(self): 
self. cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_ (self): 
return len(self._cards) 


def _ getitem_(self, position): 
return self._cards[position] 


= 一 | 
第 1 章 那 些 示例 之 所 以 能 用 ， 大 部 分 是 由 于 Python 会 特殊 对 符 看 起 来 像 
EIK Ro Python 中 的 碗 代 是 鸭子 类 型 的 一 种 极端 形式 ， A IRAN 
对 象 ， 解 释 器 会 尝试 调用 两 个 不 同 的 方法 。 


下 面 再 分 析 一 个 示例 ， 痢 重 强调 协议 的 动态 本 性 。 


11.3 使 用 猴子 补丁 在 运行 时 实现 协议 


示例 11-4 中 的 FrenchDeck 类 有 个 重大 缺陷 : 无 法 洗 牌 。 几 年 前 ， 第 
一 次 编写 FrenchDeck 示例 时 ， 我 实现 了 shuffle 方法 。 后 来 ， 我 对 
Python 风格 有 了 深刻 理解 ， 我 发 现 如 果 FrenchDeck 实例 的 行为 像 序 
列 ， 那 么 它 就 不 需要 shuffle 方法 ， 因 为 已 经 有 random. shuffle K 
数 可 用 ， 文 档 中 说 它 的 作用 是 “ 束 地 打 乱 序列 

x” Chttps://docs.python.org/3/library/random.html#random.shuffle) 。 


人 如 果 刘 守 既 定 协议 ， 很 有 可 能 增加 利用 现 有 的 标准 库 和 第 三 
方 代码 的 可 能 性 ， 这 得 益 于 鸭子 类 型 。 


标准 库 中 的 random. shuffle 函数 用 法 如 下 : 


>>> from random import shuffle 
>>> 1 = list(range(1@) ) 


>>> shuffle(1) 
>>> 1 
[5, 2, 9, 7, 8, 3, 1, 4, ©, 6] 


然而 ， 如 果 尝 试 打 乱 FrenchDeck 实例 ， 会 出 现 异 常 ， 如 示例 11-5 所 
示 : 


示例 11-$ random. shuffle 函数 不 能 打 乱 FrenchDeck 实例 


>>> from random import shuffle 

>>> from frenchdeck import FrenchDeck 
>>> deck = FrenchDeck() 

>>> shuffle(deck) 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File ".../python3.3/random.py", line 265, in shuffle 
x[i], x[j] = x[j], x[i] 
TypeError: 'FrenchDeck' object does not support item assignment 


昔 误 消息 相 当 明 确 ，“FrenchDeck' object does not support item 
assignment” ('FrenchDeck' 对 象 不 文 持 为 元 素 赋值 ) 。 这 个 问题 的 原 


Ala, shuffle 函数 要 调换 集合 中 元 素 的 位 置 ， 而 FrenchDeck 只 实现 
了 不 可 变 的 序列 协议 。 可 变 的 序列 还 必须 提供 ”setitem _ 方法 。 


Python 是 动态 语言 ， 因 此 我 们 可 以 在 运行 时 修正 这 个 问题 ， 其 至 还 可 以 
在 交互 式 控 制 台 中 ， 修 正方 法 如 示例 11-6 ra. 


示例 11-6 为 FrenchDeck 打 猴 子 补丁 ， 把 它 变 成 可 变 的 ， 让 
random. shuffle 函数 能 处 理 〈 接 续 示 例 11-5) 


>>> def set_card(deck, position, card): @ 
deck. _cards[position] = card 


>>> FrenchDeck. setitem = set card @ 


>>> shuffle(deck) © 

>>> deck[:5] 

[Card(rank='3', suit="hearts'), Card(rank='4', suit='diamonds'), Card(rank='4 
suit='clubs'), Card(rank='7', suit='hearts'), Card(rank='9', suit='spades' ) ] 


@ 定义 一 个 函数 ， 它 的 参数 为 deck、position 和 card. 
@ 把 那个 函数 赋值 给 FrenchDeck 类 的 ”setitem 属性 。 


O 现在 可 以 打 乱 deck 了 ， 因 为 FrenchDeck 实现 了 可 变 序列 协议 所 需 
的 方法 。 


特殊 方法 __setitem _ 的 签名 在 Python 语言 参考 手册 的 “3.3.6. 
Emulating container 

types” Chttps://docs.python.org/3/reference/datamodel .html#emulating- 
container-types) 中 定义 。 语 言 参考 中 使 用 的 参数 是 self、key 和 
value， 而 这 里 使 用 的 是 deck, position 和 card。 这 么 做 是 为 了 告 
诉 你 ， 每 个 Python 方法 说 到 底 都 是 普通 函数 ， 把 第 一 个 参数 命名 为 
self 只 是 一 种 约定 。 在 控制 台 会 话 中 使 用 那儿 个 参数 没 问 题 ， 不 过 在 
Python 源码 文件 中 最 好 按照 文档 那样 使 用 self、key 和 value. 


这 里 的 关键 是 ，set_card 函数 要 知道 deck 对 象 有 一 个 名 为 _cards 的 
属性 ， 而 且 cards 的 值 必须 是 可 变 序列 。 然 后 ， 我 们 把 set_card K 
数 赋值 给 特殊 方法 setitem ， 从 而 把 它 依 附 到 FrenchDeck 类 

上 。 这 种 技术 叫 猴子 补丁 : 在 运行 时 修改 类 或 模块 ， 而 不 改动 源码 。 猴 
子 补丁 很 强大 ， 但 是 打 补 丁 的 代码 与 要 打 补 丁 的 程序 耦合 十 分 紧密 ， 而 


且 往往 要 处 理 隐 藏 和 没有 文档 的 部 分 。 


除了 举例 说 明 猴 子 补丁 之 外 ， 示 例 11-6 还 强调 了 协议 是 动态 

的 :random.shuffle 函数 不 关心 参数 的 类 型 ， 只 要 那个 对 象 实 现 了 部 

ee en nee 
是 供 也 行 。 


目前 ， 本 章 讨论 的 主题 是 “鸭子 类 型 ”: 对 象 的 类 型 无 关 紧 要 ， 只 要 实现 
了 特定 的 协议 即 可 。 


前 面 给 出 的 抽象 基 类 图 表 是 为 了 展示 协议 与 抽象 基 类 的 文档 中 所 说 的 接 
口 之 间 的 关系 ， 但 是 目前 为 止 还 没有 真正 继承 抽象 基 类 。 


在 接 下 来 的 几 节 中 ， 我 们 将 直接 使 用 抽象 基 类 ， 而 不 只 将 其 当 作文 档 。 


11.4 Alex Martelli 的 水 禽 


介绍 完 Python 常规 的 协议 风格 接口 后 ， 下 面 讨论 抽象 基 类 。 不 过 在 分 析 
示例 和 细节 之 前 ， 我 们 要 看 Alex Martelli 写 的 一 篇 短文 。 这 篇 短文 说 明 
了 Python 为 什么 引入 抽象 基 类 。 


` 非常 感谢 Alex Martelli. KP35 Ame EN, Jak 
他 变 成 了 本 书 的 技术 编辑 之 一 。 他 的 见解 已 经 非常 宝贵 了 ， 现 在 又 
a Python 社区 有 他 的 存在 真是 幸运 。 接 下 来 交 给 
尔 了 ，Alex ! 


水 禽 和 抽象 基 类 
Alex Martelli Ë 


维基 百科 Chttp://en.wikipedia.org/wiki/Duck_typing#History) 说 是 我 
协助 传播 了 “鸭子 类 型 ”这 种 言 简 意 凡 的 说 法 〈 即 忽略 对 象 的 真正 类 
型 ， 转 而 关注 对 象 有 没有 实现 所 需 的 方法 、 签 名 和 语义 ) 。 


对 Python 来 说 ， 这 基本 上 是 指 避 免 使 用 isinstance 检查 对 象 的 类 
型 (更 别提 type(foo) is bar 这 种 更 糟 的 检查 方式 了 ， 这 样 做 
没有 任何 好 处 ， 甚 至 禁止 最 简单 的 继承 方式 ) 。 


总 的 来 说 ， 鸭 子 类 型 在 很 多 情况 下 十 分 有 用 ; 但 是 在 其 他 情况 下 ， 
随 着 发 展 ， 通 常 有 更 好 的 方式 。 事 情 是 这 样 的 .….…. 


近代 ， 属 和 种 〈 包 括 但 不 限于 水 禽 所 属 的 鸭 科 ) 基本 上 是 根据 表 型 
系统 学 (phenetics) 分 类 的 。 表 征 学 关注 的 是 形态 和 举止 的 相似 
性 ...... 主要 是 表 型 系统 学 特征 。 因 此 使 用 “鸭子 类 型 ”比喻 是 贴切 


然而 ， 平 行进 化 往往 会 导致 不 相关 的 种 产生 相似 的 特征 ， 形 态 和 举 
止 方面 都 是 如 此 ， 但 是 生态 位 的 相似 性 是 侦 然 的 ， 不 同 的 种 仍 属 不 


同 的 生态 位 。 编 程 语言 中 也 有 这 种 “偶然 的 相似 性 ”， 比 如 说 下 述 经 
典 的 面向 对 象 编程 示例 : 


class Artist: 
def draw(self): ... 


class Gunslinger: 


def draw(self): ... 


class Lottery: 
def draw(self): ... 


显然 ， 只 因为 x 和 yy 两 个 对 象 刚好 都 有 一 个 名 为 draw 的 方法 ， 而 
且 调 用 时 不 用 传 入 参数 ， 即 x.draw() 和 y.draw()， 远 远 不 能 确 
保 二 者 可 以 相互 调用 ， 或 者 具有 相同 的 抽象 。 也 就 是 说 ， 从 这 样 的 
调用 中 不 能 推导 出 语义 相似 性 。 相 反 ， 我 们 需要 一 位 渊博 的 程序 员 
主动 把 这 种 等 价 维持 在 一 定 层次 上 。 


生物 〈 和 其 他 学 科 ) 遇 到 的 这 个 问题 ， 迫 切 需 要 《从 很 多 方面 来 
说 ， 是 众生 ) 表征 学 之 外 的 分 类 方式 解决 ， 即 文 序 系统 学 
(cladistics) 。 这 种 分 类 学 主要 根据 从 共同 祖先 那里 继承 的 特征 分 
类 ， 而 不 是 单独 进化 的 特征 。《〈 近 些 年 ，DNA 测序 变 得 便宜 又 
快 ， 这 使 文 序 学 的 实用 地 位 变 得 更 高 。) 


Bilan, FE CLARIDA ERS EERO) RS CEA A 
其 他 鸭 类 比较 相似 ) 现在 被 分 到 Tadornidae 亚 科 (表明 二 者 的 相似 
性 比 鸭 科 中 其 他 动物 高 ， 因 为 它们 的 共同 祖先 比较 接近 ) 。 此 外 ， 
DNA DHR, AARS GETA) 不 是 很 像 ， 至 
少 没有 形态 和 举止 看 起 来 那么 像 ， 因 此 把 木 鸭 单 独 分 成 了 一 属 ， 完 
全 不 在 Tadornidae 亚 科 中 。 


知道 这 些 有 什么 用 呢 ? 视 情 况 而 定 ! 比如 ， 建 到 一 只 水 禽 后 ， 决 定 
如 何 京 制 才 最 美味 时 ， 显 著 的 特征 (不 是 全 部 ， 例 如 一 身 羽 毛 并 不 
重要 ) 主要 是 口感 和 风味 (过 时 的 表征 学 ) ， 这 比 支 序 学 重要 得 
多 。 但 在 其 他 方面 ， 如 对 不 同 病 原 体 的 抗 性 《圈养 水 禽 还 是 放 
养 ) ，DNA 接近 性 的 作用 就 大 多 了 ...... 


因此 ， 参 照 水 禽 的 分 类 学 演化， 我 建议 在 鸭子 类 型 的 基础 上 增加 


白 禾 类 型 (goose typing) 。 


AREH, RE cls 是 抽象 基 类 ， 即 cls 的 元 类 是 
abc.ABCMeta， 就 可 以 使 用 isinstance(obj, cls). 


collections.abc 中 有 很 多 有 用 的 抽象 类 〈Python 标准 库 的 
numbers 模块 中 还 有 一 些 ) . 3 


与 具体 类 相 比 ， 抽 象 基 类 有 很 多 理论 上 的 优点 (例如 ， 参 阅 Scott 
Meyer 写 的 《More Effective C++: 35 个 改善 编程 与 设计 的 有 效 方法 
《中 文 版 ) 》 的 “条 款 33: 将 非 尾 端 类 设计 为 抽象 类 ”， 英 文 版 见 
http://ptgmedia.pearsoncmg.com/images/020163371x/items/item33.html) ， 
Python 的 抽象 基 类 还 有 一 个 重要 的 实用 优势 : 可 以 使 用 register 
类 方法 在 终端 用 户 的 代码 中 把 某 个 类 “声明 ?为 一 个 抽象 基 类 的 “ 虚 
WFR 〈 为 此 ， 和 被 注册 的 类 必须 满足 抽象 基 类 对 方法 名 称 和 签名 
的 要 求 ， 最 重要 的 是 要 满足 底层 语义 外 约 ;但 是 ， 开 发 那个 类 时 不 
用 了 解 抽象 基 类 ， 更 不 用 继承 抽象 基 类 ) 。 这 大 大 地 打破 了 严格 的 
强 耦 合 ， 与 面 问 对 象 编程 人 员 掌 握 的 知识 有 很 大 出 入 ， 因 此 使 用 继 
承 时 要 小 心 。 


有 了 时， 为 了 让 抽象 基 类 识别 子 类 ， 甚 至 不 用 注册 。 
其 实 ， 抽 象 基 类 的 本 质 就 是 几 个 特殊 方法 。 例 如 : 


>>> class Struggle: 
def _len_(self): return 23 


>>> from collections import abc 
>>> isinstance(Struggle(), abc.Sized) 
True 


可 以 看 出 ， 无 需 注 册 ，abc.Sized 也 能 把 Struggle 识别 为 自己 的 
子 类 ， 只 要 实现 了 特殊 方法 ”len _ 即 可 (要 使 用 正确 的 句法 和 
语义 实现 ， 前 者 要 求 没有 参数 ， 后 者 要 求 返 回 一 个 非 负 整数 ， 指 明 
对 象 的 长 度 ; 如 果 不 使 用 规定 的 句法 和 语义 实现 特殊 方法 ， 如 

_ len ， 会 导致 非常 严重 的 问题 ) 。 


最 后 我 想 说 的 是 : 如 果实 现 的 类 体现 了 


numbers. collections. abc 或 其 他 框架 中 抽象 基 类 的 概念 ， 要 
么 继承 相应 的 抽象 基 类 (必要 时 ) ， 要 么 把 类 注册 到 相应 的 抽象 其 
类 中 。 开 始 开 发 程序 时 ， 不 要 使 用 提供 注册 功能 的 库 或 框架 ， 要 自 
己 动手 注册 ;如 果 必 须 检 查 参 数 的 类 型 (这 是 最 常见 的 ) ， 例 如 检 
得 是 不 是 “序列 ”， 那 就 这 样 做 : 


isinstance(the_arg, collections.abc.Sequence) 


此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 (或 元 类 ) .……. 如 果 你 很 想 
这 样 做 ， 我 打赌 可 能 是 因为 你 想 “ 找 在 "， 刚 拿 到 新 工具 的 人 都 有 大 
干 一 场 的 冲动 。 如 果 你 能 避 开 这 些 深奥 的 概念 ， 你 (以 及 未 来 的 代 
码 维护 者 ) 的 生活 将 更 愉快 ， 因 为 代码 会 变 得 简洁 明 了。 再 会 ! 


3 当然 ， 你 还 可 以 自己 定义 抽象 基 类 ， 但 是 我 不 建议 高 级 Python 程序 员 之 外 的 人 这 么 做 ， 同 
样 ， 我 也 不 建议 你 自己 定义 元 类 .……. 我 说 的 “高 级 Python 程序 员 ” 是 指 对 Python 语言 的 一 招 一 
式 都 了 如 指 掌 ， 即 便 对 这 类 人 来 说 ， 抽 象 基 类 和 元 类 也 不 是 常用 工具 。 如 此 “深层 次 的 元 编 
程 ”， 如 果 可 以 这 么 讲 的 话 ， 适 合 框架 的 作者 使 用 ， 这 样 便 于 众多 不 同 的 开发 团队 独立 扩展 杠 
ae 真正 需要 这 么 做 的 “高 级 Python 程序 员 ” 不 超过 1% 。 Alex Martelli 


H 


除了 提出 “ 白 鹅 类 型 "之 外 ，Alex 还 指出 ， 继 承 抽象 基 类 很 简单 ， 只 需要 
实现 所 需 的 方法 ， 这 样 也 能 明确 表明 开发 者 的 意图 。 这 一 意图 还 能 通过 
注册 虚拟 子 类 来 实现 。 


此 外 ， 使 用 isinstance 和 issubclass 测试 抽象 基 类 更 为 人 接受 。 过 
去 ， 这 两 个 函数 用 来 测试 鸭子 类 型 ， 但 用 于 抽象 基 类 会 更 灵活 。 毕 竟 ， 
如 采 茶 个 组 件 没有 继承 抽象 基 类 ， 事后 还 可 以 注册 ， 让 显 式 类 型 检查 通 


过 


然而 ， 即 便 是 抽象 基 类 ， 也 不 能 滥用 isinstance 检查 ， 用 得 多 了 可 能 
导致 代码 异味 ， 即 表明 面 癌 对 象 设 计 得 不 好 。 在 一 连 串 if/elif/elif 
中 使 用 isinstance 做 检查 ， 然 后 根据 对 象 的 类 型 执行 不 同 的 操作 ， 通 
和 常 是 不 好 的 做 法 ; 此 时 应 该 使 用 多 态 ， 即 采用 一 定 的 方式 定义 类 ， 让 解 
eae 而 不 使 用 if/elif/elif 块 硬 编码 分 派 
LAE o 


A 基体 使 用 时 ， 上 述 建议 有 一 个 和 常见 的 例外 :;: 有 些 Python API 


接受 一 个 字符 串 或 字符 串 序 列 ， 如 果 只 有 一 个 字符 串 ， 可 以 把 它 放 
到 列表 中 ， 从 而 简化 处 理 。 因 为 字符 串 是 序列 类 型 ， 所 以 为 了 把 它 
和 其 他 不 可 变 序 列 区 分 开 ， 最 简单 的 方式 是 使 用 isinstance(x， 
str) 检查 。4 


4 可 惜 ， 在 Python 3.4 中 没有 能 把 字符 串 和 元 组 或 其 他 不 可 变 序列 区 分 开 的 抽象 基 类 ， 因 此 必 
须 测试 str。 在 Python 2 中 ，basestr 类 型 可 以 协助 这 样 的 测试 。basestr 不 是 抽象 基 类 ， 但 
它 是 str 和 unicode 的 超 类 ; 然而 ，Python 3 把 basestr 去 掉 了 。 奇 怪 的 是 ，Python 3 中 有 
个 collections.abc.ByteString 类 型 ， 但 是 它 只 能 检测 bytes 和 bytearray 类 型 。 


男 一 方面 ， 如 果 必 须 强 制 执行 API 契约 ， 通 溃 可 以 使 用 isinstance 检 
得 抽象 基 类 。 “老兄 ， 如 果 你 想 调用 我 ， 必 须 实现 这 个 ”， 正 如 本 书 技术 
审 校 Lennart Regebro 所 说 的 。 这 对 采用 插入 式 架 构 的 系统 来 说 特别 有 
用 。 在 框架 之 外 ， 聘 子 类 型 通 稼 比 类 型 检查 更 简单 ， 也 更 灵活 。 


例如 ， 本 书 有 几 个 示例 要 使 用 序列 ， 把 它 当 成 列表 处 理 。 我 没有 检查 参 
数 的 类 型 是 不 是 1ist， 而 是 直接 接受 参数 ， 立 即使 用 它 构 建 一 个 列 
表 。 这 样 ， 我 就 可 以 接受 任何 可 迭代 对 象 ， 如 果 参 数 不 是 可 迭代 对 象 ， 
调用 立即 失败 ， 并 且 提 供 非 常 清晰 的 错误 消息 。 本 章 后 面 示例 11-13 中 
的 代码 就 是 这 么 做 的 。 当 然 ， 如 果 序 列 太 长 或 者 需要 就 地 修改 序列 而 导 
致 无 法 复制 参数 ， 束 不 能 采用 这 种 方式 ， 此 时 ， 使 用 isinstance(x, 
abc .MutableSequence) 更 好 。 如 果 可 以 接受 任何 可 迭代 对 象 ， 也 可 
以 调用 iter(x) 函数 获得 一 个 迭代 器 ， 详 情 参见 14.1.1 市 。 


模仿 

collections.namedtuple (https://docs.python.org/3/library/collections.h 
处 理 field_names 参数 的 方式 也 是 一 例 : field_names 的 值 可 以 是 单 
个 字符 串 ， 以 空格 或 逗号 分 隅 标识 符 ， 也 可 以 是 一 个 标识 符 序 列 。 此 时 
可 能 想 使 用 isinstance， 但 我 会 使 用 鸭子 类 型 ， 如 示例 11-7 所 示 。” 


5 这 段 代码 摘自 示例 21-2。 


11-7 使 用 鸭子 类 型 处 理 单 个 字符 串 或 由 字符 串 组 成 的 可 迭代 
X 


try: @ 
field names = field_names.replace(',', ' ').split() @ 
except AttributeError: © 


pass © 
field names = tuple(field_names) © 


@ 假设 是 单个 字符 串 (EAFP 风格 ， 即 “取得 原谅 比 获 得 许可 容易 ”)。 
O 把 过 号 蔡 换 成 空格 ， 然 后 拆 分 成 名 称 列 表 。 


© 抱歉 ，field_names 看 起 来 不 像 是 字符 串 .…… 没 有 .replace 方 
法 ， 或 者 返回 值 不 能 使 用 .split 方法 拆 分 。 


O 假设 已 经 是 由 名 称 组 成 的 可 迭代 对 象 了 。 


O 为 了 确保 的 确 是 可 迭代 对 象 ， 也 为 了 保存 一 份 副 本 ， 使 用 所 得 值 创 
哇 一 个 元 组 。 


在 那 篇 短文 的 最 后 ，Alex 多 次 强调 ， 要 抑制 住 创建 抽象 基 类 的 冲动 。 滥 
用 抽象 基 类 会 造成 灾难 性 后 果 ， 表 明 语 言 太 注重 表面 形式 ， 这 对 以 实用 
和 务实 著称 的 Python 可 不 是 好 事 。 在 审阅 本 书 的 过 程 中 ，Alex 写 道 : 


抽象 基 类 是 用 于 封装 框 杂 引入 的 一 般 性 概念 和 抽象 的 ， 例 如 "一 个 
序列 ”和 “一 个 确切 的 数 "。〔 读 者 ) 基本 上 不 需要 目 己 编写 新 的 抽 
象 基 类 ， 只 要 正确 使 用 现 有 的 抽象 其 类， 束 能 获得 99.9% 的 好 处 ， 
而 不 用 冒 着 设计 不 当 导 致 的 巨大 风险 。 


下 面 通过 实例 讲解 白 鹅 类 型 。 


11.5 和 定义 抽象 基 类 的 子 类 


我 们 将 遵循 Martelli 的 建议 ， 先 利用 现 有 的 抽象 基 类 
(collections.MutableSequence) ， 然 后 再 斗 胆 自己 定义 。 在 示例 
11-8 中 ， 我 们 明确 把 FrenchDeck2 声明 为 

collections .MutableSequence 的 子 类 。 


示例 11-8 
frenchdeck2.py: FrenchDeck2, collections.MutableSequence 
的 子 类 
import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 
class FrenchDeck2(collections.MutableSequence) : 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 
def _ init__(self): 


self. cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


_ len (self): 
return len(self. cards) 


_ getitem (self, position): 
return self. _cards[ position] 


def _setitem (self, position, value): # © 
self._cards[position] = value 


def _delitem (self, position): #@ 
del self. _cards[position] 


def insert(self, position, value): # © 
self. _cards.insert(position, value) 


@ 为 了 文 持 洗 牌 ， 只 需 实现 __setitem__ Wik. 


© 但 是 继承 MutableSequence 的 类 必须 实现 ”delitem 方法， 这 
是 MutableSequence 类 的 一 个 抽象 方法 。 


© 此 外 ， 还 要 实现 insert 方法 ， 这 是 MutableSequence 类 的 第 三 个 
抽象 方法 。 


导入 时 《加 载 并 编译 frenchdeck2.py 模块 时 ) , Python 不 会 检查 抽象 方 
法 的 实现 ， 在 运行 时 实例 化 FrenchDeck2 类 时 才 会 真正 检查 。 因 此 ， 

如 果 没 有 正确 实现 某 个 抽象 方法 ，Python 会 抛 出 TypeError 异常 ， 并 
把 错误 消息 设 为 "Can't instantiate abstract class 
FrenchDeck2 with abstract methods _ delitem _ ，insert"。 正 是 这 个 
原因 ， 即 便 FrenchDeck2 类 不 需要 delitem__ F insert 提供 的 行 
为 ， 也 要 实现 ， 因 为 MutableSequence 抽象 基 类 需要 它们 。 


如 图 11-2 Prax, Sequence 和 MutableSequence 抽象 基 类 的 方法 不 全 
是 抽象 的 。 


MutableSequence 
— setitem 
_delitem 


—getitem— insert 


lterable —contains— append 


reverse 
extend 
pop 
remove 
_iadd _ 


一 "er 一 


__reversed__ 
index 
count 


图 11-2: MutableSequence 抽象 基 类 和 collections.abe 中 它 的 超 
类 的 UML 类 图 〈 箭 头 由 子 类 指向 祖先 ;以 斜体 显示 的 名 称 是 抽象 类 
和 抽象 方法 ) 


FrenchDeck2 从 Sequence 继承 了 几 个 拿 来 即 用 的 具体 方 
YE: _ contains 、 iter 、 reversed 、index 和 
count. FrenchDeck2 从 MutableSequence 继承 了 
append. extend. pop. remove 和 iadd 。 


在 collections.abc 中 ， 每 个 抽象 基 类 的 具体 方法 都 是 作为 类 的 公开 


接口 实现 的 ， 因 此 不 用 知道 实例 的 内 部 接口 。 


~ 要 想 实 现 子 类 ， 我 们 可 以 履 盖 从 抽象 基 类 中 继承 的 方法 ， 以 
更 高 效 的 方式 重新 实现 。 例 如 ，__contains _ 方法 会 全 面 扫描 序 
列 ， 可 是 ， 如 果 你 定义 的 序列 按 顺 序 保存 元 素 ， 那 就 可 以 重新 定义 
__contains 方法， 使 用 bisect 函数 做 二 分 查找 (参见 2.8 
3) ， 从 而 提升 搜索 速度 。 


为 了 充分 使 用 抽象 基 类 ， 我 们 要 知道 有 哪些 抽象 基 类 可 用 。 接 下 来 介绍 
集合 抽象 基 类 。 


11.6 标准 库 中 的 抽象 基 类 


从 Python 2.6 开始 ， 标 准 库 提供 了 抽象 基 类 。 大 多 数 抽象 基 类 在 
collections.abc 模块 中 定义 ， 不 过 其 他 地 方 也 有 。 例 如 ，numbers 
和 io 包 中 有 一 些 抽象 基 类 。 但 是 ，collections .abc 中 的 抽象 基 类 最 
和 常用。 我 们 来 看 看 这 个 模块 中 有 哪些 抽象 基 类 。 


11.6.1 collections.abc 模 块 中 的 抽象 基 类 


A 标准 库 中 有 两 个 名 为 abc 的 模块 ， 这 里 说 的 是 
collections.abc。 为 了 减少 加 载 时 间 ，Python 3.4 在 
collections 包 之 外 实现 这 个 模块 〈 在 Lib/_collections_abe.py 
H, https://hg.python.org/cpython/file/3.4/Lib/_collections_abc.py) ， 
因此 要 与 collections 分 开导 入 。 男 一 个 abc 模块 就 是 abc〈( 即 
Lib/abc.py, https://hg.python.org/cpython/file/3.4/Lib/abc.py) ， 这 里 
定义 的 是 abc .ABC 类 。 每 个 抽象 基 类 都 依赖 这 个 类 ， 但 是 不 用 导 
入 它 ， 除 非 定义 新 抽象 基 类 。 


Python 3.4 在 collections.abc 模块 中 定义 了 16 个 抽象 基 类 ， 简 要 的 
UML 类 图 〈 没 有 属性 名 称 ) 如 图 11-3 所 示 。collections .abc 的 官方 
文档 中 有 个 不 错 的 表格 

(https://docs.python.org/3/library/collections.abc.html#collections-abstract- 
base-classes) ， 对 各 个 抽象 基 类 做 了 总 结 ， 说 明了 相互 之 间 的 关系 ， 以 
及 各 个 基 类 提供 的 抽象 方法 和 具体 方法 〈 称 为 “混入 方法 ”) 。 图 11-3 中 
有 很 多 多 重 继承 。 我 们 将 在 第 12 章 着 重 说 明 多 重 继承 ， 讨 论 抽象 基 类 
时 通常 不 用 考虑 多 重 继 承 。。 


Java 认为 多 重 继 承 有 危害， 因此 没有 提供 支持 ， 但 是 提供 了 接口 ，Java 的 接口 可 以 扩展 多 个 
接口 ， 而 且 Java 的 类 可 以 实现 多 个 接口 。 


| Iterable | | Callable | | Hashable | 


RS Senin es 
RA 
=e | MappingView | | MappingView | 
A > a: 
MutableSequence MutableMapping 
| MutableSet | | ItemsView | View | Keys View | View 


图 11-3: collections.abc 模块 中 各 个 抽象 基 类 的 UML 类 图 
下 面 详 述 图 11-3 中 那 一 群 基 类 。 
Iterable、Container 和 Sized 


各 个 集合 应 该 继承 这 三 个 抽象 基 类 ， 或 者 至 少 实现 兼容 的 协 
议 。Iterable 通过 _ iter_ 方法 文 持 迭代 ，Container 通过 
”contains 方法 支持 in 运算 符 ，Sized 通过 “len ”方法 支持 
len() 函数 。 


Sequence、Mapping 和 Set 


这 三 个 是 主要 的 不 可 变 集合 类 型 ， 而 且 各 自 都 有 可 变 的 子 
类 。MutableSequence 的 详细 类 图 见 图 11-2; MutableMapping 和 
MutableSet 的 类 图 在 第 3 章 中 《〈 见 图 3-1 和 图 3-2) 。 


MappingView 


在 Python 3 中 ， 映 射 方 法 .items()、.keys() 和 .values() 返回 
的 对 象 分 别 是 ItemsView、KeysView 和 ValuesView 的 实例 。 wW 
类 还 从 Set 类 继承 了 丰富 的 接口 ， 包 含 3.8.3 节 所 述 的 全 部 运算 符 


Callable 和 Hashable 


这 两 个 抽象 基 类 与 集合 没有 太 大 的 关系 ， 只 不 过 因为 
collections .abc 是 标准 库 中 定义 抽象 基 类 的 第 一 个 模块 ， 而 它们 又 
太 重 要 了 ， 因 此 才 把 它们 放 到 collections.abc 模块 中 。 我 从 未 见 过 
Callable 或 Hashable 的 子 类 。 这 两 个 抽象 基 类 的 主要 作用 是 为 内 置 
| isinstance 提供 文 持 ， 以 一 种 安全 的 方式 判断 对 象 能 不 能 调用 或 
散 列 。 


7 若 想 检查 是 否 能 调用 ， 可 以 使 用 内 置 的 callable() 函数 ;但 是 没有 类 似 的 hashable() & 
数 ， 因 此 测试 对 象 是 否 可 散 列 ， 最 好 使 用 isinstance(my_obj, Hashable). 


Iterator 

注意 它 是 Iterable 的 子 类 。 我 们 将 在 第 14 章 详 细 讨 论 。 
继 collections.abc 之 后 ， 标 准 库 中 最 有 用 的 抽象 基 类 包 是 
numbers。 下 面 就 来 介绍 。 
11.6.2 ”抽象 基 类 的 数字 塔 


numbers 包 (https://docs.python.org/3/library/numbers.html) 定义 的 是 “ 数 
字 塔 ”*( 即 各 个 抽象 基 类 的 层次 结构 是 线性 的 ) ， 其 中 Number 是 位 于 
最 顶端 的 超 类 ， 随 后 是 Complex 子 类 ， 依 次 往 下 ， 最 底 端 是 Integral 
J 

Des 


e Number 

e Complex 
e Real 

e Rational 
e Integral 


因此 ， 如 果 想 检查 一 个 数 是 不 是 整数 ， 可 以 使 用 isinstance(x, 


numbers.Integral)， 这 样 代码 就 能 接受 int. bool Cint 的 子 

类 ) ， 或 者 外 部 库 使 用 numbers 抽象 基 类 注册 的 其 他 类 型 。 为 了 满足 
检查 的 需要 ， 你 或 者 你 的 API 的 用 户 始 终 可 以 把 兼容 的 类 型 注册 为 
numbers.Integral 的 虚拟 子 类 。 


与 之 类 似 ， 如 果 一 个 值 可 能 是 浮 点 数 类 型 ， 可 以 使 用 isinstance(x, 
numbers .Real) 检查 。 这 样 代码 就 能 接受 

bool, int, float. fractions.Fraction, 或 者 外 部 库 (如 
NumPy， 它 做 了 相应 的 注册 〉 提供 的 非 复数 类 型 。 


By decimal .Decimal 没有 注册 为 numbers.Real 的 虚拟 子 
类 ， 这 有 点 奇怪 。 没 注册 的 原因 是 ， 如 果 你 的 程序 需要 Decimal 
的 精度 ， 要 防止 与 其 他 低 精 度数 字 类 型 泥 消 ， 尤 其 是 浮 点 数 。 
了 解 一 些 现 有 的 抽象 基 类 之 后 ， 我 们 将 从 零 开 始 实现 一 个 抽象 基 类 ， 然 
后 实际 使 用 ， 以 此 实践 白 鹅 类 型 。 这 么 做 的 目的 不 是 鼓励 每 个 人 都 立即 
开始 定义 抽象 基 类 ， 而 是 教 你 怎么 阅读 标准 库 和 其 他 包 中 的 抽象 基 类 源 


11.7 定义 并 使 用 一 个 抽象 基 类 


为 了 证 明 有 必要 定义 抽象 基 类 ， 我 们 要 在 框架 中 找到 使 用 它 的 场景 。 想 
象 一 下 这 个 场景 : 你 要 在 网 站 或 移动 应 用 中 显示 随机 广告 ， 但 是 在 整个 
广告 清单 轮转 一 壳 之 前 ， 不 重复 显示 广告 。 假 设 我 们 在 构建 一 个 广告 管 
理 框 架 ， 名 为 ADAM。 它 的 职责 之 一 是 ， 文 持 用 户 提 供 随 机 挑选 的 无 重 
复 类 。8 为 了 让 ADAM 的 用 户 明 确 理解 “随机 挑选 的 无 重复 ”组 件 是 什么 
意思 ， 我 们 将 定义 一 个 抽象 基 类 。 


8 客户 可 能 要 审查 随机 发 生 器 ， 或 者 代理 想 作弊 .…… 谁 知道 呢 ! 


受到 “ 栈 ” 和 “队列 ”( 以 物体 的 排放 方式 说 明 抽象 接口 ) 启 发 ， 我 将 使 用 
现实 世界 中 的 物品 命名 这 个 抽象 基 类 : 宾 果 机 和 彩票 机 是 随机 从 有 限 的 
集合 中 挑选 物品 的 机 器 ， 选 出 的 物品 没有 重复 ， 直 到 选 完 为 止 。 


我 们 把 这 个 抽象 基 类 命名 为 Tombola， 这 是 宾 果 机 和 打 乱 数字 的 深 动 容 
器 的 意大利 名 。” 


9 牛津 英语 词典 对 tombola 的 定义 是 “ 像 对 号 游戏 Cotto) 那样 的 彩票 〈lottery) ”. 


Tombola 抽象 基 类 有 四 个 方法 ， 其 中 两 个 是 抽象 方法 。 

e .load(...): 把 元 素 放 入 容器 。 

。 .pick(): 从 容器 中 随机 拿 出 一 个 元 素 ， 返 回 选中 的 元 素 。 
另外 两 个 是 具体 方法 。 

e .loaded(): 如 果 容 器 中 至 少 有 一 个 元 素 ， 返 回 True. 


e .inspect(): 返回 一 个 有 序 元 组 ， 由 容器 中 的 现 有 元 素 构 成 ， 不 
会 修改 容器 的 内 容 〈 内 部 的 顺序 不 保留 〉。 


图 11-4 展示 了 Tombola 抽象 基 类 和 三 个 具体 实现 。 


BingoCage 


int TomboList 
load load 
pick pick 


loaded loaded 
inspect inspect 


图 11-4: 一 个 抽象 基 类 和 三 个 子 类 的 UML 类 图 。 根 据 UML 的 约 
定 ，Tombola 抽象 基 类 和 它 的 抽象 方法 使 用 斜体。 虚线 第 头 用 于 表 
示 接 口 实现 ， 这 里 它 表示 TomboList 是 Tombola 的 虚拟 子 类 ， 因 为 
TomboList 是 注册 的 ， 本 章 后 面 会 说 明 这 一 点 10 


10 registered» 和 《<virtual subclass» 不 是 标准 的 UML 词汇 。 我 们 使 用 二 者 表示 Python 类 之 间 的 关 


Tombola 抽象 基 类 的 定义 如 示例 11-9 所 示 。 


示例 11-9 tombola.py: Tombola 是 抽象 基 类 ， 有 两 个 抽象 方法 和 
两 个 具体 方法 


import abc 


class Tombola(abc.ABC): @ 


@abc.abstractmethod 
def load(self, iterable): @ 
"uun "从 可 迭代 对 象 中 添加 元 素 。 nun 


@abc.abstractmethod 
def pick(self): © 


"" "随机 删除 元 素 ， 然 后 将 其 返 


E 


WIRE PAZ, LAMAMA LookupError` 。 


def loaded(self): @ 
""" 如 果 至 少 有 一 个 元 素 ， 返 回 `True` ， 否 则 返回 `False  。""" 
return bool(self.inspect()) © 


def inspect(self): 
""" 返 回 一 个 有 序 元 组 ， 由 当前 元 素 构成 。""" 
items = [] 
while True: © 
try: 
items. append(self.pick()) 
except LookupError: 
break 
self.load(items) @ 
return tuple(sorted(items) ) 


Q 自己 定义 的 抽象 基 类 要 继承 abc. ABC. 
四 抽象 方法 使 用 @abstractmethod 装饰 器 标记 ， 而 且 定 义 体 中 通常 只 


有 文档 字符 串 。1 


了 在 抽象 基 类 出 现 之 前 ， 抽 象 方法 使 用 raise NotImplementedError 语句 表明 由 子 类 负责 实 
现 。 


个 根据 文档 字符 串 ， 如 果 没 有 元 素 可 选 ， 应 该 抛 出 LookupError。 
O 抽象 基 类 可 以 包含 具体 方法 。 


O 抽象 基 类 中 的 具体 方法 只 能 依赖 抽象 基 类 定义 的 接口 ( 即 只 能 使 用 
抽象 基 类 中 的 其 他 具体 方法 、 抽 象 方法 或 特性 〉。 


O 我 们 不 知道 具体 子 类 如 何 存储 元 素 ， 不 过 为 了 得 到 inspect 的 结 
果 ， 我 们 可 以 不 断 调用 .pick() 方法 ， 把 Tombola 清空 …... 


@ .….…... 然 后 再 使 用 .10ad(...) 把 所 有 元 素 放 回去 。 


a 其 实 ， 抽 象 方法 可 以 有 实现 代码 。 即 便 实 现 了 ， 子 类 也 必须 
履 病 抽象 方法 ， 但 是 在 子 类 中 可 以 使 用 super() 函数 调用 抽象 方 
法 ， 为 它 添 加 功能 ， 而 不 是 从 头 开 始 实现 。@abstractmethod 4% 
饰 右 的 用 法 参见 abc 模块 的 文档 
(https://docs.python.org/3/library/abc.html ) 。 


示例 11-9 中 的 .inspect() 方法 实现 的 方式 有 些 笨拙 ， 不 过 却 表明 ， 
有 了 .pick() 和 .load(...) 方法 ， 若 想 查 看 Tombola 中 的 内 容 ， 可 以 
先 把 所 有 元 素 挑 出 ， 然 后 再 放 回 去 。 这 个 示例 的 目的 是 强调 抽象 基 类 可 
以 提供 有 具体 方法 ， 只 要 依赖 接口 中 的 其 他 方法 就 行 。Tombola 的 有 具体 子 
类 知晓 内 部 数据 结构 ， 可 以 覆盖 .inspect() 方法 ， 使 用 更 聪明 的 方式 
实现 ， 但 这 不 是 强制 要 求 。 


示例 11-9 中 的 .loaded() 方法 没有 那么 笨拙 ， 但 是 耗 时 : 调用 
.inspect() 方法 构建 有 序 元 组 的 目的 仅仅 是 在 其 上 调用 bool() K 
数 。 这 样 做 是 可 以 的 ， 但 是 具体 子 类 可 以 做 得 更 好 ， 后 文 见 分 晓 。 


注意 ， 实 现 .inspect() 方法 采用 的 迁 回 方式 要 求 捕获 self.pick() 
抛 出 的 LookupError。self.pick() 抛 出 LookupError 这 一 事实 也 是 
接口 的 一 部 分 ， 但 是 在 Python 中 没 办 法 声明 ， 只 能 在 文档 中 说 明 (参见 
示例 11-9 中 抽象 方法 pick 的 文档 字符 串 ) 。 


我 选择 使 用 LookupError 异常 的 原因 是 ， 在 Python 的 异常 层次 关系 
中 ， 它 与 IndexError 和 KeyError 有 关 ， 这 两 个 是 具体 实现 Tombola 
所 用 的 数据 结构 最 有 可 能 抛 出 的 异常 。 据 此 ， 实 现代 码 可 能 会 抛 出 
LookupError、IndexError 或 KeyError 异常 。 异 常 的 部 分 层次 结构 
如 示例 11-10 所 示 《 完 整 的 层次 结构 参见 Python 标准 库 文档 中 的 “5.4. 
Exception hierarchy’— i. 12) 


12 y, https://docs.python.org/dev/library/exceptions.html#exception-hierarchy. —— ji # yÈ 


示例 11-10 异常 类 的 部 分 层次 结构 


BaseException 
SystemExit 


— KeyboardInterrupt 
— GeneratorExit 


L— Exception 
| 一 stopIteration 

ArithmeticError 

| 一 FloatingPointError 

— OverflowError 

L— ZeroDivisionError 
AssertionError 
AttributeError 
BufferError 
EOFError 
ImportError 
LookupError @ 

— IndexError @ 

L— KeyError © 
— MemoryError 


SEE 


。 etc. 


O 我 们 在 Tombola. inspect 方法 中 处 理 的 是 LookupError 异常 。 


© IndexError 是 LookupError 的 子 类 ， 尝 试 从 序列 中 获取 索引 超过 
最 后 位 置 的 元 素 时 抛 出 。 


O 使 用 不 存在 的 键 从 映射 中 获取 元 素 时 ， 抛 出 KeyError 异常 。 
我 们 自己 定义 的 Tombola 抽象 基 类 完成 了 。 为 了 一 睹 抽象 基 类 对 接口 


所 做 的 检查 ， 下 面 我 们 尝试 使 用 一 个 有 缺陷 的 实现 来 糊弄 Tombola, 4 
示例 11-11 所 示 。 


示例 11-11 不 符合 Tombola 要 求 的 子 类 无 法 蒙混 过 关 


>>> from tombola import Tombola 
>>> class Fake(Tombola): # @ 
def pick(self): 
return 13 


>>> Fake #@ 


<class '__main__.Fake'> 
>>> f = Fake() # © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class Fake with abstract methods load 


@ 把 Fake 声明 为 Tombola 的 子 类 。 

© 创建 了 Fake 类 ， 目 前 没有 错误 。 

O 尝试 实例 化 Fake 时 抛 出 了 TypeError。 错 误 消 息 十 分 明确 : Python 
认为 Fake 是 抽象 类 ， 因 为 它 没有 实现 load 方法 ， 这 是 Tombola 抽象 
基 类 声明 的 抽象 方法 之 一 。 

我 们 的 第 一 个 抽象 基 类 定义 好 了 ， 而 且 还 用 它 实 际 验证 了 一 个 类 。 稍 后 
我 们 将 定义 Tombola 抽象 基 类 的 子 类 ， 在 此 之 前 必须 说 明 抽象 基 类 的 
一 些 编程 规则 。 

11.7.1 抽象 基 类 句法 详解 

声明 抽象 基 类 最 简单 的 方式 是 继承 abc. ABC 或 其 他 抽象 基 类 。 

然而 ，abc .ABC 是 Python 3.4 新 增 的 类 ， 因 此 如 果 你 使 用 的 是 旧版 
Python， 那 么 无 法 继承 现 有 的 抽象 基 类 。 此 时 ， 必 须 在 class 语句 中 使 


用 metaclass= 关键 字 ， 把 值 设 为 abc.ABCMeta (不 是 abc.ABC) 。 
在 示例 11-9 中 ， 可 以 写成 : 


class Tombola(metaclass=abc.ABCMeta) : 
E: 


metaclass= 关键 字 参 数 是 Python 3 引入 的 。 在 Python 2 中 必须 使 用 


__metaclass 类 属性 : 


class Tombola(object): # 这 是 Python 2! ! ! 
_ metaclass _ = abc.ABCMeta 


Pess 


元 类 将 在 第 21 章 讲 解 。 现 在 ， 我 们 和 暂且 把 元 类 理解 为 一 种 特殊 的 类 ， 
同样 也 把 抽象 基 类 理解 为 一 种 特殊 的 类 。 例 如 ,“ 铅 规 的 ”类 不 会 检查 子 
类 ， 因 此 这 是 抽象 基 类 的 特殊 行为 。 


除了 @abstractmethod 之 外 ，abc 模块 还 定义 了 


@abstractclassmethod. @abstractstaticmethod 和 
@abstractproperty =‘ 4e(iids. ZAM, Ja = S481 M Python 3.3 
起 废弃 了 ， 因 为 装饰 器 可 以 在 @abstractmethod LHES, A= 
得 多 余 了。 例如 ， 声 明 抽 象 类 方法 的 推荐 方式 是 : 


class MyABC(abc.ABC): 
@classmethod 
@abc.abstractmethod 


def an_abstract_classmethod(cls, ...): 
pass 


Be 
TE pei at EHER iti as EY JI Pa RE, @abstractmethod HIE wt 
特别 指出 : 


与 其 他 方法 描述 符 一 起 使 用 时 ，abstractmethod() 应 该 放 在 
最 里 层 ，..... 


也 就 是 说 ， 在 @abstractmethod 和 def 语句 之 间 不 能 有 其 他 装饰 


Ba 


AN 


了 出 自 abc 模块 文档 中 的 @abc.abstractmethod 词 条 
Chttps://docs.python.org/dev/library/abc.html#abc.abstractmethod) 。 


说 明 抽 象 基 类 的 句法 之 后 ， 我 们 要 通过 实现 几 个 功能 完善 的 具体 子 代 来 
使 用 Tombola。 


11.7.2 Æ X Tombola Z EXHT% 


定义 好 Tombola 抽象 基 类 之 后 ， 我 们 要 开发 两 个 具体 子 类 ， 满 足 
Tombola 规定 的 接口 。 这 两 个 子 类 的 类 图 如 图 11-4 所 示 ， 图 中 还 有 将 
在 下 一 节 讨 论 的 虚拟 子 类 。 


示例 11-12 中 的 BingoCage 类 是 在 示例 5-8 的 基础 上 修改 的 ， 使 用 了 更 
好 的 随机 发 生 器 。 BingoCage 实现 了 所 需 的 抽象 方法 load 和 pick, 


从 Tombola 中 继承 了 loaded Wik, Mitt Y inspect 方法 ， 还 增加 了 
_call_ 方法 。 


示例 11-12 bingo.py: BingoCage Æ Tombola 的 具体 子 类 


import random 


from tombola import Tombola 


class BingoCage(Tombola): @ 


def init__(self, items): 
self. _randomizer = random.SystemRandom() @ 
self. items = [] 
self.load(items) © 


load(self, items): 
self. _items.extend(items) 
self. randomizer.shuffle(self. items) © 


pick(self): © 
try: 
return self. _items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage’ ) 


_call (self): © 
self.pick() 


@ 明确 指定 BingoCage 类 扩展 Tombola 类 。 


O 假设 我 们 将 在 线 上 游戏 中 使 用 这 个 。random.SystemRandom 使 用 

os.urandom(...) 函数 实现 random API。 根 据 os 模块 的 文档 
Chttp://docs.python.org/3/library/os.html#os.urandom) , os.urandom(... 

函数 生成 “适合 用 于 加 密 ” 的 随机 字 节 序列 。 


© 委托 .1o0ad(... ) 方法 实现 初始 加 载 。 


@ 没有 使 用 random.shuffle() 函数 ， 而 是 使 用 SystemRandom 实例 
的 .shuffle() 方法 。 


© pick 方法 的 实现 方式 与 示例 5-8 一 样 。 


O call 也 跟 示 例 5-8 中 的 一 样 。 它 没 必要 满足 Tombola 接口 ， 添 
加 额外 的 方法 没有 问题 。 


BingoCage 从 Tombola 中 继承 了 耗 时 的 loaded 方法 和 笨拙 的 
inspect 方法 。 这 两 个 方法 都 可 以 履 新 ， 变 成 示例 11-13 中 速度 更 快 的 
一 行 代码 。 这 里 想 表 达 的 观点 是 : 我 们 可 以 偷懒 ， 直 接 从 抽象 基 类 中 继 
承 不 是 那么 理想 的 具体 方法 。 从 Tombola 中 继承 的 方法 没有 
BingoCage 自己 定义 的 那么 快 ， 不 过 只 要 Tombola 的 子 类 正确 实现 
pick 和 load 方法 ， 就 能 提供 正确 的 结果 。 


示例 11-13 是 Tombola 接口 的 另 一 种 实现 ， 虽 然 与 之 前 不 同 ， 但 完全 有 
效 。LotteryBlower 打 乱 “数字 球 ” 后 没有 取出 最 后 一 个 ， 而 是 取出 一 
个 随机 位 置 上 的 球 。 


示例 11-13 lotto.py: LotteryBlower 是 Tombola 的 具体 子 类 ， 
覆盖 了 继承 的 inspect 和 loaded 方法 


import random 


from tombola import Tombola 


class LotteryBlower(Tombola) : 


def init__(self, iterable): 
self. balls = list(iterable) © 


def load(self, iterable): 
self. _balls.extend(iterable) 


def pick(self): 
try: 
position = random.randrange(len(self._balls)) @ 
except ValueError: 
raise LookupError('pick from empty LotteryBlower' ) 
return self. _balls.pop(position) © 


def loaded(self): @ 
return bool(self. balls) 


def inspect(self): © 
return tuple(sorted(self. balls)) 


@ 初始 化 方法 接受 任何 可 迭代 对 象 : 把 参数 构建 成 列表 。 


O 如 果 范 围 为 空 ，Fandom.randrange(...) 函数 抛 出 ValueError， 
为 了 兼容 Tombola， 我 们 捕获 它 ， 抛 出 LookupError。 


否则 ， 从 self._balls 中 取出 随机 选中 的 元 素 。 


@ fei loaded WE, WRIA inspect 方法 (示例 11-9 中 的 
Tombola. loaded 方法 是 这 么 做 的 ) 。 我 们 可 以 直接 处 理 
self. balls 而 不 必 构 建 整个 有 序 元 组 ， 从 而 提升 速度 。 


O 使 用 一 行 代 码 履 盖 inspect Wik. 


示例 11-13 中 有 个 习惯 做 法 值得 指出 : 在 _ init_ ”方法 

中 ，self. balls 保存 的 是 1ist(iterable)， 而 不 是 iterable 的 引 
用 《〈 即 没有 直接 把 iterable 赋值 给 self._balls) 。 前 面 说 过 ， 
这 样 做 使 得 LotteryBlower 更 灵活 ， 因 为 iterable 参数 可 以 是 任何 
可 迭代 的 类 型 。 把 元 素 存 入 列表 中 还 确保 能 取出 元 素 。 就 算 iterable 
参数 始终 传 入 列表 ，1ist(iterable) 会 创建 参数 的 副本 ， 这 依然 是 好 
oe ABATE A PBR TC RR » 而 客户 可 能 不 希望 自己 提供 的 列表 
做 修改 。 


“我 在 Martelli 写 的 “水 禽 和 抽象 基 类 ”短文 之 后 以 此 为 例 说 明 鸭 子 类 型 。 


15 4.2 节 专 门 讨论 了 这 种 防止 混淆 别名 的 问题 。 


余下 来 要 者 日 狂人 关 型 的 重要 动态 特 生 了: 使 用 register 方法 声明 虚拟 


TR. 


11.7.3 ”Tombola 的 虚拟 子 类 


日 物 类 型 的 一 个 基本 特性 (也 是 值得 用 水 禽 来 命名 的 原因 〉: 即便 不 继 
承 ， 也 有 办 法 把 一 个 类 注册 为 抽象 基 类 的 虚拟 子 类 。 这 样 做 时 ， 我 们 保 


证 注册 的 类 忠实 地 实现 了 抽象 基 类 定义 的 接口 ， 而 Python 会 相信 我 们 ， 
从 而 不 做 检查 。 如 果 我 们 说 诉 了 ， 那 么 常规 的 运行 时 寞 第 会 把 我 们 捕 
IRo 


注册 虚拟 子 类 的 方式 是 在 抽象 基 类 上 调用 register 方法 。 这 么 做 之 
后 ， 注 册 的 类 会 变 成 抽象 基 类 的 虚拟 子 类 ， 而 且 issubclass 和 
isinstance 等 函数 都 能 识别 ， 但 是 注册 的 类 不 会 从 抽象 基 类 中 继承 任 
何方 法 或 属性 。 


a 
Pen 虚拟 子 类 不 会 继承 注册 的 抽象 基 类 ， 而 且 任何 时 候 都 不 会 检 
查 它 是 否 符合 抽象 基 类 的 接口 ， 即 便 在 实例 化 时 也 不 会 检查 。 为 了 
避免 运行 时 错误 ， 虚 拟 子 类 要 实现 所 需 的 全 部 方法 。 


register 方法 通常 作为 普通 的 函数 调用 (参见 11.9 节 ) ， 不 过 也 可 以 
作为 装饰 器 使 用 。 在 示例 11-14 中 ， 我 们 使 用 装饰 器 句法 实现 了 
TomboList 类 ， 这 是 Tombola 的 一 个 虚拟 子 类 ， 如 图 11-5 所 示 。 


MutableSequence 
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i «registered» 


T 
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loaded 
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图 11-5: TomboList 的 UML 类 图 ， 它 是 list 的 真实 子 类 和 
Tombola 的 虚拟 子 类 


11.8 To 


示例 11-14 tombolist.py: TomboList 是 Tombola 的 虚拟 子 类 


from random import randrange 


from tombola import Tombola 


@Tombola.register # © 
class TomboList(list): #@ 


def pick(self): 


if self: #®6 
position = randrange(len(self)) 
return self.pop(position) # @ 
else: 
raise LookupError('pop from empty TomboList' ) 


load = list.extend # © 


def loaded(self): 
return bool(self) # O 


def inspect(self): 
return tuple(sorted(self)) 


# Tombola.register(TomboList) # @ 


@ 把 Tombolist 注册 为 Tombola 的 虚拟 子 类 。 


© Tombolist 扩展 list。 


@@ Tombolist 从 list 中 继承 bool 方法， 列表 不 为 空 时 返回 


True. 


@ pick 调用 继承 自 list 的 self.pop 方法 ， 传 入 一 个 随机 的 元 素 索 
als 


@ Tombolist.load 5 list.extend 一 样 。 


@ loaded 方法 委托 bool MH. 16 


loaded 方法 不 能 采用 load 方法 的 那 种 方式 ， 因 为 list 类 型 没有 实现 loaded 方法 所 需 的 
_ bool Wik. MAB bool 函数 不 需要 bool ”方法 ， 因 为 它 还 可 以 使 用 _ len_ Ù 
法 。 参 见 Python 文档 中 “Built-in Types” 一 章 中 的 “4.1. Truth Value 

Testing” Chttps://docs.python. org/3/library/stdtypes.html#truth) 。 


© 如 果 是 Python 3.3 或 之 前 的 版 本 ， 不 能 把 .register 当 作 类 装饰 器 
使 用 ， 必 须 使 用 标准 的 调用 句法 。 


注册 之 后 ， 可 以 使 用 issubclass 和 isinstance 函数 判断 TomboList 
是 不 是 Tombola 的 子 类 : 


>>> from tombola import Tombola 
>>> from tombolist import TomboList 
>>> issubclass(TomboList, Tombola) 


True 

>>> t = TomboList(range(1@@) ) 
>>> isinstance(t, Tombola) 
True 


然而 ， 类 的 继承 关系 在 一 个 特殊 的 类 属性 中 指定 一 一 mro”， 即 方法 
解析 顺序 (Method Resolution Order) 。 这 个 属性 的 作用 很 简单 ， 按 顺序 
列 出 类 及 其 超 类 ，Python 会 按照 这 个 顺序 搜索 方法 。17 查看 
TomboList 类 的 _mro_ 属性 ， 你 会 发 现 它 只 列 出 了 “真实 的 ” 超 类 ， 

即 list 和 object: 


1712.2 节 会 专门 讲解 _mro__ 类 属性 ， 现 在 知道 这 个 简单 的 解释 就 行 了 。 


>>> TomboList. mro _ 


(<class 'tombolist.TomboList'>, <class 'list'>, <class 'object'>) 


Tombolist. mro _ 中 没有 Tombola， 因 此 Tombolist 没有 从 
Tombola 中 继承 任何 方法 。 


我 编写 了 几 个 类 ， 实 现 了 相同 的 接口 ， 现 在 我 需要 一 种 编写 doctest 的 
方式 来 涵 新 不 同 的 实现 。 下 一 节 说 明 如 何 利 用 常规 类 和 抽象 基 类 的 API 
编写 doctest。 


11.8 ” Tombola 子 类 的 测试 方法 


ee Tombola 示例 测试 脚本 用 到 两 个 类 属性 ， 用 它们 内 省 类 的 继 
TKR A o 


_ subclasses () 


这 个 方法 返回 类 的 直接 子 类 列表 ， 不 含 虚拟 子 类 。 


_abc_registry 


只 有 抽象 基 类 有 这 个 数据 属性 ， 其 值 是 一 个 WeakSet 对 象 ， 即 抽 
象 关注 册 的 虚拟 子 类 的 弱 引 用 。 


为 了 测试 Tombola 的 所 有 子 类 ， 我 编写 的 脚本 迭代 
Tombola. subclasses () I Tombola. abc_registry 得 到 的 列 
表 ， 然 后 把 各 个 类 赋值 给 在 doctest 中 使 用 的 ConcreteTombola。 


这 个 测试 脚本 成 功 运行 时 输出 的 结果 如 下 : 


$ python3 tombola_runner.py 
BingoCage 24 tests, © failed 


LotteryBlower 24 tests, © failed 
TumblingDrum 24 tests, © failed 
TomboList 24 tests, 6 failed 


测试 脚本 的 代码 在 示例 11-15 中 ，doctest 在 示例 11-16 中 。 


/一 


示例 11-15 tombola runner.py: Tombola 子 类 的 测试 运行 程序 


import doctest 


from tombola import Tombola 


# 要 测试 的 模块 
import bingo, lotto, tombolist, drum @ 


TEST_FILE = 'tombola_tests.rst' 
TEST_MSG = '{@:16} {1.attempted:2} tests, {1.failed:2} failed - {2}' 


def main(argv): 
verbose = '-v' in argv 
real_ subclasses = Tombola. subclasses () @ 
virtual_subclasses = list(Tombola. abc registry) © 


for cls in real_subclasses + virtual_subclasses: @ 
test(cls, verbose) 


def test(cls, verbose=False): 


res = doctest.testfile( 
TEST FILE, 
globs={'ConcreteTombola': cls}, © 
verbose=verbose, 
optionflags=doctest.REPORT_ONLY_FIRST_FAILURE) 
tag = 'FAIL' if res.failed else 'OK' 
print(TEST_MSG.format(cls.__name_, res, tag)) © 


if _name == ' main_': 
import sys 
main(sys.argv) 


O 导入 包含 Tombola 真实 子 类 和 虚拟 子 类 的 模块 ， 用 于 测试 。 


© subclasses () 返回 的 列表 是 内 存 中 存在 的 直接 子 代 。 即 便 源 
码 中 用 不 到 想 测试 的 模块 ， 也 要 将 其 导入 ， 因 为 要 把 那些 类 载 入 内 存 。 


人 把 _ abc registry (WeakSet 对 象 ) 转换 成 列表 ， 这 样 方 能 与 
subclasses () 的 结果 拼接 起 来 。 


@ 过 代 找到 的 各 个 子 类 ， 分 别传 给 test 函数 。 


OJE cls 参数 (要 测试 的 类 ) 绑 定 到 全 局 命名 空间 里 的 
ConcreteTombola 名 称 上 ， 供 doctest 使 用 。 


O 输出 测试 结果 ， 包 含 类 的 名 称 、 党 试 运行 的 测试 数量 、 失 败 的 测试 
数量 ， 以 及 'OK' Be 'FAIL' 标记 。 


doctest 文件 如 示例 11-16 所 示 。 


示例 11-16 tombola tests.rst: Tombola 子 类 的 doctest 


Every concrete subclass of Tombola should pass these tests. 


Create and load instance from iterable:: 


>>> balls = list(range(3)) 

>>> globe = ConcreteTombola(balls) 
>>> globe. loaded() 

True 

>>> globe. inspect() 

(0, 1, 2) 


Pick and collect balls:: 


>>> picks = [] 

>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 


Check state and results:: 


>>> globe. loaded() 

False 

>>> sorted(picks) == balls 
True 


Reload:: 


>>> globe. load(balls) 

>>> globe. loaded() 

True 

>>> picks = [globe.pick() for i in balls] 
>>> globe. loaded() 

False 


Check that ‘LookupError (or a subclass) is the exception 
thrown when the device is empty:: 


>>> globe = ConcreteTombola([]) 
>>> try: 

. globe.pick() 

.. except LookupError as exc: 
... print('OK') 

OK 


Load and pick 166 balls to verify that they all come out:: 


>>> balls = list(range(1@@) ) 

>>> globe = ConcreteTombola(balls) 
>>> picks = [] 

>>> while globe.inspect(): 

... picks.append(globe.pick()) 

>>> len(picks) == len(balls) 

True 

>>> set(picks) == set(balls) 

True 


Check that the order has changed and is not simply reversed:: 


>>> picks != balls 

True 

>>> picks[::-1] != balls 
True 


Note: the previous 2 tests have a *very* small chance of failing 
even if the implementation is OK. The probability of the 100 
balls coming out, by chance, in the order they were inspect is 
1/100!, or approximately 1.07e-158. It's much easier to win the 
Lotto or to become a billionaire working as a programmer. 


THE END 


我 们 对 Tombola 抽象 基 类 的 分 析 到 此 结束 。 下 一 节 说 明 Python 如 何 使 
用 抽象 基 类 的 register MAL. 


11.9 Python 使 用 register 的 方式 


示例 11-14 把 Tombola.register 当 作 类 装饰 器 使 用 。 在 Python 3.3 之 
前 的 版 本 中 不 能 这 样 使 用 register， 必 须 在 定义 类 之 后 像 普通 函数 那 
样 调用 ， 如 示例 11-14 中 最 后 那 行 注释 所 述 。 


虽然 现在 可 以 把 register 当 作 装饰 器 使 用 了 ， 但 更 常见 的 做 法 还 是 把 
它 当 作 函 数 使 用 ， 用 于 注册 其 他 地 方 定义 的 类 。 例 如 ， 在 
collections .abc 模块 的 源码 中 

(https://hg.python.org/cpython/file/3.4/Lib/_collections abc.py) ， 是 这 样 
把 内 置 类 型 tuple、str、range 和 memoryview 注册 为 Sequence 的 
虚拟 子 类 的 : 


Sequence.register(tuple) 
Sequence.register(str) 


Sequence.register(range) 
Sequence. register (memoryview) 


其 他 几 个 内 置 类 型 在 _collections abc.py 文件 

(https://hg.python.org/cpython/file/3.4/Lib/_collections abc.py) 中 注册 为 
抽象 基 类 的 虚拟 子 类 。 这 些 类 型 在 导入 模块 时 注册 ， 这 样 做 是 可 以 的 ， 
因为 必须 导入 才能 使 用 抽象 基 类 : 能 访问 MutableMapping 才能 编写 
isinstance(my_dict, MutableMapping). 


结束 本 章 之 前 ， 还 要 解释 一 下 Alex Martelli £k & Ald ASE” h ith FE 
的 魔法 。 


11.10 KTNA Nn BE REST 


Alex 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文中 指出 ， 即 便 不 注册 ， 抽 象 其 类 也 
能 把 一 个 类 识别 为 虚拟 子 类 。 下 面 是 他 举 的 例子 ， 我 添加 了 一 些 代码 ， 
使 用 issubclass 做 测试 : 


>>> class Struggle: 
def _len_(self): return 23 


>>> from collections import abc 


>>> isinstance(Struggle(), abc.Sized) 
True 

>>> issubclass(Struggle, abc.Sized) 
True 


经 issubclass 函数 确认 Cisinstance 函数 也 会 得 出 相同 的 结 
ve) , Struggle 是 abc.Sized 的 子 类 ， 这 是 因为 abc.Sized 实现 了 
一 个 特殊 的 类 方法 ， 名 为 subclasshook ”。 参 见 示例 11-17. 


示例 11-17 Sized 类 的 源码 ， 摘 自 Lib/ collections abc.py (Python 
3.4, https://hg.python.org/cpython/file/3.4/Lib/ collections _abe.py#1127 ) 
class Sized(metaclass=ABCMeta) : 
_ slots __ 
@abstractmethod 


def _len_ (self): 
return @ 


@classmethod 
def _subclasshook (cls, C): 
if cls is Sized: 
if any(" len " in B. dict forB in C._mro_): #0 
return True #@ 
return NotImplemented # © 


Oc. mro_ (BNC RAHA) 中 所 列 的 类 来 说 ， 如 果 类 的 


_dict 属性 中 有 名 为 len _ 的 属性 .……… 
四 返回 True， 表明 CC 是 Sized 的 虚拟 子 类 。 
© 否则 ， 返 回 NotImplemented， 让 子 类 检查 。 


如 果 你 对 子 类 检查 的 细节 感 兴趣 ， 可 以 阅读 Lib/abe.py 文件 中 
ABCMeta. subclasscheck _ 方法 的 源码 

Chttps://hg.python.org/cpython/file/3.4/Lib/abc.py#1194) 。 提 醒 : 源码 中 
有 很 多 if 语句 和 两 个 递归 调用 。 


__subclasshook__ 在 白 笋 类 型 中 添加 了 一 些 网 子 类 型 的 踪迹 。 我 们 可 
以 使 用 抽象 基 类 定义 正式 接口 ， 可 以 始终 使 用 isinstance 检查 ， 也 可 
以 完全 使 用 不 相关 的 类 ， 只 要 实现 特定 的 方法 即 可 (或 者 做 些 事情 让 
__subclasshook__ 信服 〉。 当 然 ， 只 有 提供 __subclasshook_ 方 
法 的 抽象 基 类 才能 这 么 做 。 


在 自己 定义 的 抽象 基 类 中 要 不 要 实现 ”subclasshook ”方法 呢 ? 可 
能 不 需要 。 我 在 Python 源码 中 只 见 到 Sized 这 一 个 抽象 基 类 实现 了 
__subclasshook _ 方法， 而 Sized 只 声明 了 一 个 特殊 方法 ， 因 此 只 
用 检查 这 么 一 个 特殊 方法 。 鉴 于 len ”方法 的 “特殊 性 ”， 我 们 基本 
可 以 确定 它 能 做 到 该 做 的 事 。 但 是 对 其 他 特殊 方法 和 基本 的 抽象 基 类 来 
说 ， 很 难 这 么 育 定 。 人 例如， 虽然 映射 实现 了 _ len __ 、_ getitem _ 
和 iter ， 但 是 不 应 该 把 它们 视 作 Sequence 的 子 类 型 ， 因 为 不 能 
使 用 整数 偏 移 值 获取 元 素 ， 也 不 能 保证 元 素 的 顺序 。 当 

然 ，OrderedDict 除外 ， 它 保留 了 插入 元 素 的 顺序 ， 但 是 不 支持 通过 
偏 移 获 取 元 素 。 


在 你 我 自己 编写 的 抽象 基 类 中 实现 ”subclasshook_ _ 方法， 可靠 性 
很 低 。 我 可 不 相信 随便 一 个 实现 或 继承 了 load. pick, inspect 和 
loaded 的 类 《如 Spam) 的 行为 一 定 像 Tombola。 程 序 员 最 好 让 Spam 
继承 Tombo1a， 至 少 也 要 注册 (Tombola.register(Spam)) ， 从 而 确 
保 这 一 点 。 当 然 ， 自 己 实 现 的 “subclasshook _ 方法 还 可 以 检查 方 
法 签名 和 其 他 特性 ， 但 我 觉得 不 值得 这 么 做 。 


1.11 本 章 小 结 


本 章 首 先 介绍 了 非 正式 接口 〈 称 为 协议 ) 的 高 度 动态 本 性 ， 然 后 讲解 了 
抽象 基 类 的 静态 接口 声明 ， 最 后 指出 了 抽象 基 类 的 动态 特性 : 虚拟 子 
类 ， 以 及 使 用 subclasshook ”方法 动态 识别 子 类 。 


我 们 首先 回顾 了 Python 社区 对 接口 的 惯常 理解 。 在 Python 的 历史 中 常 
第 出 现 接 口 的 号 影 ， 但 它 是 非 正 式 的 ， 类 似 于 Smalltalk 的 协议 ， 而 且 
在 官方 文档 中 , “foo 协议 ”foo 接口 "和 “foo 类 对 象 " 这 三 种 措辞 是 同一 
个 意思 。 协 议 风格 的 接口 与 继承 完全 没有 关系 ， 实 现 同一 个 协议 的 各 个 
类 是 相互 独立 的 。 在 鸭子 类 型 中 ， 接 口 就 是 这 样 的。 


通过 示例 11-3， 我 们 发 现 Python 对 序列 协议 的 支持 十 分 深入 。 如 果 一 个 
类 实现 了 __getitem _ 方法 ， 此 外 什么 也 没 人 做， 那么 Python 会 设法 返 
RE, WE in 运算 符 也 随 之 可 以 使 用 。 随 后 ， 我 们 继续 编写 第 1 章 中 
的 FrenchDeck 示例 ， 还 动态 添加 了 一 个 方法 ， 从 而 让 它 支 持 洗 牌 。 这 
里 用 到 的 是 猴子 补丁 ， 突 出 了 协议 的 动态 本 性 。 我 们 再 一 次 见识 到 ， 阐 
分 实现 协议 也 是 有 用 的 : 添加 可 变 序列 协议 中 的 __setitem _ 方法 之 
后 ， 立 即 就 能 使 用 标准 库 中 的 random.shuffle 函数 。 了 解 现 有 的 协议 
能 让 我 们 充分 利用 Python 丰富 的 标准 库 。 


接 下 来 ，Alex Martelli MAT “AMR IARE, 18 以 此 描述 一 种 新 
的 Python 编程 风格 。 借 助 “ 白 鹅 类 型 "*， 可 以 使 用 抽象 基 类 明确 声明 接 
口 ， 而 且 类 可 以 子 类 化 抽象 基 类 或 使 用 抽象 基 类 注册 (无 需 在 继承 关系 
中 确立 静态 的 强 链 接 ) ， 宣 称 它 实现 了 某 个 接口 。 


18“ 白 忽 类 型 "这 种 说 法 是 Alex 发 明 的 ， 这 是 它 第 一 次 出 现在 书 中 。 


FrenchDeck2 示例 清楚 地 展示 了 显 式 继承 抽象 基 类 的 优 缺 点 。 继 承 
abc .MutableSequence 后 ， 必 须 实现 insert 和 ”delitem _ 方法 ， 
而 我 们 并 不 需要 这 两 个 方法 。 不 过 ， 即 便 是 Python 新 手 ， 只 要 查看 
FrenchDeck2 类 的 源码 ， 就 能 看 出 它 是 可 变 序 列 。 此 外 ， 我 们 还 得 到 
一 个 额外 好 处 ， 从 abc.MutableSequence 中 继承 了 11 个 方法 (其 中 
五 个 间接 继承 自 abc.Sequence) ， 而 且 拿 来 即 用 。 


全 面 介 绍 图 11-3 中 collections.abc 模块 里 的 各 个 抽象 基 类 后 ， 我 们 
自己 动手 从 头 开始 编 写 了 一 个 抽象 基 类 。PyMOTW.com (Python Module 
of the Week, http://pymotw.com) 网 站 的 创建 者 Doug Hellmann 道 出 了 这 人 么 
做 的 目的 : 


定义 抽象 基 类 之 后 ， 各 个 子 类 可 以 实现 通用 的 API. MURA ANA 
aA FEAF WE TE ITN, 却 又 想 使 用 插件 扩展 ， 就 可 以 利用 这 一 功 


DPYMOTW 网 站 介绍 abc 模块 的 页 面 , “Why use Abstract Base Classes?” 一 节 
Chttps://pymotw.com/2/abc/index.html#why-use-abstract-base-classes) 。 


定义 好 Tombola 抽象 基 类 之 后 ， 我 们 创建 了 三 个 具体 子 类 ， 两 个 继承 
Tombo1a， 另 一 个 注册 为 虚拟 子 类 -一 它们 都 能 通过 同一 个 测试 组 件 。 


本 和 章 络 束 之 前 ， 我 们 提 到 了 几 个 内 置 类 型 是 如 何 注册 到 
collections.abc 模块 中 的 抽象 基 类 的 。 这 样 ， 虽 然 memoryview 没 
有 继承 abc.Sequence, isinstance(memoryview, abc. Sequence) 
的 结果 也 是 True。 最 后 ， 我 们 探究 了 _ subclasshook__ 魔法 。 这 个 
方法 的 作用 是 让 抽象 基 类 识别 没有 注册 为 子 类 的 类 ， 你 可 以 根据 需要 做 
简单 的 或 者 复杂 的 测试 一 一 标准 库 的 做 法 只 是 检查 方法 名 称 。 


最 后 的 最 后 ， 我 要 重申 Alex Martelli W224: 不 要 自己 定义 抽象 基 类 ， 
除非 你 要 构建 允许 用 户 扩 展 的 框架 一 一 然而 大 多 数 情况 下 并 非 如 此 。 日 
常 使 用 中 ， 我 们 与 抽象 基 类 的 联系 应 该 是 创建 现 有 抽象 基 类 的 子 类 ， 或 
者 使 用 现 有 的 抽象 基 类 注册 。 上 此外， 我 们 可 能 还 会 在 isinstance 检查 
中 使 用 抽象 基 类 ， 但 这 比 继承 或 注册 更 少见 。 需 要 自己 从 头 编写 新 抽象 
基 类 的 情况 少 之 又 少 。 


我 使 用 Python 15 年 了 ， 除 了 教学 示例 以 外 ， 我 只 在 Pingo 项 目 
Chttp://pingo.io) 中 编写 过 一 个 抽象 类 ， 即 Board 类 
Chttps://github.com/garoa/pingo/blob/master/pingo/board.py) > 3c#F FARK 

机 和 控制 器 的 驱动 是 Board 的 子 类 ， 共 用 相同 的 接口 。 就 算 我 把 

pingo.Board 打造 成 抽象 类 ， 它 也 并 没有 继承 abc. ABC. 79 我 本 打算 

把 Board 定义 为 抽象 基 类 ， 但 是 Pingo 项 目 有 更 重要 的 事情 要 做 。 


0ython 标准 库 也 有 这 样 做 的 ， 有 些 类 虽然 是 抽象 的 ， 但 是 并 没有 显 式 地 继承 abc .ABC。 


P 


ve TA t/a m 


使 用 下 面 这 段 话 结尾 : 
抽象 基 类 使 得 类 型 检查 变 得 更 容易 了 ， 但 不 应 该 在 程 序 中 过 度 
使 用 它 。 Python 的 核心 在 于 它 是 一 门 动态 语言 ， 它 带 来 了 极 大 的 有 灵 
性 。 如 果 处 处 都 强制 实行 类 型 约束 ， 那 么 会 会 使 代码 变 但 更 加 复 


*， 而 本 不 应 该 如 此 。 我 们 应 该 拥抱 Python 的 灵活 性 。 
David Beazley 和 Brian Jones 
«Python Cookbook (第 3 版) 中文 版 》 


适合 
TE 


21 (Python Cookbook (#5 3 版 ) 中 文 版 》 第 281 页 
: “如 有 果 觉 得 自己 想 创建 


或 者 ， 像 本 书 技 术 审 校 Leonardo Rochael 所 写 的 
新 的 抽象 基 类 ， 先 试 着 通过 常规 的 鸭子 类 型 来 解决 问题 。” 


11.12 ”延伸 阅读 


Beazley 与 Jones 的 《Python Cookbook (第 3 版， 中 文 版 ”有 一 市 

(8.12) 定义 了 一 个 抽象 基 类 。 这 本 书 在 Python 3.4 之 前 撰写 ， 因 此 他 
们 没有 使 用 现在 推荐 的 句法 ， 即 通过 继承 abc. ABC 声明 抽象 基 类 ， 而 
是 使 用 metaclass 关键 字 。 除 了 这 个 小 细节 之 外 ， 那 个 秘 和 戈 很 好 地 涵 
盖 了 抽象 基 类 的 主要 功能 ， 而 且 最 后 还 给 出 了 宝 贯 的 意见 ， 即 前 一 节 末 
尾 引 用 的 那 段 话 。 


Doug Hellmann 写 的 《Python 标准 库 》 一 书 中 有 一 章 是 关于 abc 模块 
HJ. Doug 创建 的 PyYMOTW (Python Module of the Week) 网 站 中 也 有 那 
— (http://pymotw.com/2/abc/index.html) 。 这 本 书 和 PyMOTW 网 站 都 
针对 Python 2， 因 此 如 果 你 使 用 Python 3 的 话 ， 必 须 做 些 调整 。 人 2 记 
住 ， 在 Python 3.4 中 ， 唯 一 推荐 使 用 的 抽象 基 类 方法 装饰 器 是 
@abstractmethod， 其 他 装饰 器 已 经 废弃 了 。 本 章 小 结 中 引用 的 关于 
抽象 基 类 的 男 一 句 话 出 自 Doug 的 网 站 和 这 本 书 。 


2PyMOTW 网 站 现在 已 经 是 面向 Python 3 了 。 编者 注 


使 用 抽象 基 类 时 ， 经 常会 遇 到 多 重 继承 ， 而 且 是 不 可 避免 的 ， 因 为 基本 
的 集合 抽象 基 类 (Sequence、Mapping 和 Set) 都 扩展 多 个 抽象 基 类 
(如 图 11-3 所 示 ) 。 第 12 章 接着 讨论 这 个 话题 ， 那 是 重要 的 一 章 。 


“PEP 3119—Introducing Abstract Base 

Classes” (https://www.python.org/dev/peps/pep-3119) 讲解 了 抽象 基 类 的 
基本 原理 ，“PEP 3141—A Type Hierarchy for 

Numbers” Chttps://www.python.org/dev/peps/pep-3141/) 提出 了 numbers 
模块 Chttps://docs.python.org/3/library/numbers.html) 中 的 抽象 基 类 。 


Bill Venners 对 Guido van Rossum 的 采访 “Contracts in Python: A 
Conversation with Guido van Rossum, Part 
IV” Chttp://www.artima.com/intv/pycontract.html) 讨论 了 动态 类 型 的 优 缺 


INO 


zope.interface & Chttp://docs.zope.org/zope.interface/) 提供 了 一 种 声 


明 接 口 的 方式 : 检查 对 象 是 否 实现 了 接口 ， 注 册 提 供 方 ， 然 后 查询 指定 
接口 的 提供 方 。 一 开始 ， 这 个 包 是 Zope 3 核心 的 一 部 分 ， 不 过 它 可 以 
在 Zope 外 部 使 用 ， 而 且 已 经 有 人 这 么 做 了 。 这 个 包 为 大 型 Python 项 目 
(如 Twisted. Pyramid 和 Plone) 的 组 件 式 架 构 提供 了 有 灵活 的 基础 。 
Lennart Regebro 写 的 “A Python Component Architecture” 一 文 
(https://regebro.wordpress.com/2007/11/16/a-python-component- 
architecture/) 对 zope.interface 包 做 了 介绍 ，Baiju M 还 写 了 一 本 相 


关 的 书 一 一 4 Comprehensive Guide to Zope Component 
Architecture Chttp://muthukadan.net/docs/zca.html) 。 
杂谈 


类 型 提示 


2014 年 ，Python 世界 最 大 的 新 闻 应 该 是 Guido van Rossum 同意 实现 
可 选 的 静态 类 型 检查 ， 这 与 检查 程序 Mypy Chttp://www.mypy- 
lang.org) 的 做 法 类 似 ， 即 使 用 函数 注解 实现 。 这 一 消 妃 出 自 8 月 
15 日 发 表 在 Python-ideas 邮件 列表 中 的 一 个 话题 ， 题 为 “Optional 
static typing —the 
crossroads” Chttps://mail.python.org/pipermail/python-ideas/2014- 
August/028742.html) 。 一 个 月 后 ,，“PEP 484—Type Hints” 5! 
(https://www.python.org/dev/peps/pep-0484/) 发 布 了 ， 发 起 人 是 
Guido. 


这 个 功能 的 目的 是 让 程序 员 在 函数 定义 中 使 用 注解 声明 参数 和 返回 
值 的 类 型 ， 但 这 是 可 选 的 。 关 键 在 于 “可 选 ”一 字 。 仅 当 你 想得到 注 
解 的 好 处 和 限制 时 才 需 要 添加 注解 ， 而 且 可 以 在 一 些 函 数 中 添加 ， 
在 力 一 些 函 数 中 不 添加 。 


从 表面 上 看 ， 这 与 Microsoft 对 TypeScript (JavaScript 的 超 集 ) 采 
取 的 方式 类 似 ， 不 过 TypeScript 做 得 更 进一步 : TypeScript 添加 了 
新 的 语言 结构 (如 模块 、 类 、 显 式 接口 ， 等 等 ， 人 允许 声明 变量 类 
型 ， 而 且 最 终 编译 成 常规 的 JavaScript。 目 前 来 看 ，Python 的 可 选 
静态 类 型 没 这 么 大 的 雄心 。 


为 了 理解 这 个 提案 的 动机 ， 不 能 忽略 Guido 在 2014 年 8 月 15 日 发 
送 的 那 封 重要 邮件 中 的 这 段 话 : 


我 还 得 做 个 假设 : 这 个 功能 主要 供 lint 程序 、IDE 和 文档 生成 
工具 使 用 。 这 些 工具 有 个 共同 点 : 即使 类 型 检查 失败 了 ， 程 序 
此 外 ， 程 序 中 添加 的 类 型 不 能 降低 性 能 (也 不 能 提 
升 性 能 :-)) 。 


因此 ， 这 一 举动 并 不 像 乍 一 看 那么 激进 。“PEP 484—Type 

Hints” (https://www.python.org/dev/peps/pep-0484/) 提 到 了 “PEP 482 
—Literature Overview for Type 

Hints” Chttps://www.python.org/dev/peps/pep-0482/) ， 后 者 概述 了 第 
三 方 Python 工具 和 其 他 语言 实现 类 型 提示 的 方式 。 


不 管 激 进 不 激进 ， 类 型 提示 都 将 到 来 : 支持 PEP 484 的 typing 模 
块 好 像 已 经 纳入 Python 3.5. 73 根据 这 个 提案 的 表述 和 实现 方式 ， 
可 以 肯定 的 是 ， 现 有 代码 不 会 因为 缺少 类 型 提示 (或 相关 的 附加 
物 ) 而 无 法 运行 。 


最 后 ，PEP 484 明确 指出 : 


还 要 强调 一 点 ，Python 依旧 是 一 门 动态 类 型 语言 ， 作 者 从 未 打 
算 强 制 要 求 使 用 类 型 提示 ， 甚 至 不 会 把 它 变 成 约定 。 


Python 是 弱 类 型 语言 吗 
由 于 缺少 统一 的 术语 ， 讨 论语 言 类 型 方面 的 话题 时 有 时 会 让 人 不 明 
其 意 。 有 些 人 【例如 扩展 阅读 中 提 到 的 Bill Venners 对 Guido 的 访 
谈 ) 说 Python 是 弱 类 型 语言 ， 把 Python 与 JavaScript 和 PHP JAW 
一 类 。 讨 论 类 型 时 ， 最 好 考虑 两 条 不 同 的 坐标 线 。 
强 类 型 和 弱 类 型 

如 果 一 门 语言 很 少 隐 式 转换 类 型 ， 说 明 它 是 强 类 型 语言 如 果 
经 常 这 么 做 ， 说 明 它 是 弱 类 型 语言 。Java、C++ 和 Python 是 强 类 型 
语言 。PHP、JavaScript 和 Perl 是 弱 类 型 语言 。 


静态 类 型 和 动态 类 型 


在 编译 时 检查 类 型 的 语言 是 静态 
的 语言 是 动态 类 型 语言 。 静 态 类 型 需 


类 型 语言 ， 在 运行 时 检查 类 型 
要 声明 类 型 《有 些 现代 语言 使 


用 类 型 推导 避免 部 分 类 型 声明 ) 。Fortran 和 Lisp 是 最 早 的 两 | ] 语 
言 ， 现 在 仍 在 使 用 ， 它 们 分 别 是 静态 类 型 语言 和 动态 类 型 语言 。 


强 类 型 能 及 早 发 现 缺陷 。 
下 面 几 例 体现 了 弱 类 型 的 不 足 : 24 


// 这 些 是 ]avascript 代 码 〈 在 Node.js v8.16.33 中 做 了 测试 ) 
'o' // false 
// true 


// true 
// false 
// true 


因为 Python 不 会 自动 在 字符 串 和 数字 之 间 强 制 转换 ， 所 以 在 Python 
3 P, ER == 表达 式 的 结果 都 是 False (保留 了 == 的 意思 ) ， 而 
< 比较 会 抛 出 TypeError。 


静态 类 型 使 得 一 些 工 具 〈 编 译 器 和 IDE) 便于 分 析 代 码 、 找 出 错误 
和 提供 其 他 服务 〈 优 化 、 重 构 ， 等 等 ) 。 动 态 类 型 便于 代码 重用 ， 
代码 行 数 更 少 ， 而 且 能 让 接口 自然 成 为 协议 而 不 提早 实行 。 


iE, Python 是 动态 强 类 型 语言 。“PEP 484—Type 
Hints” Chttps://www.python.org/dev/peps/pep-0484/) 无 法 改变 这 一 
点 ， 但 是 API 作者 能 够 添加 可 选 的 类 型 注解 ， 执 行 菜 种 静态 类 型 检 


猴子 补丁 


猴子 补丁 的 名 声 不 太 好 。 如 宁 泪 用 ， 会 导致 系统 难以 理解 和 维护 。 
补丁 通 第 与 目标 紧密 看 合 ， 因 此 很 脆弱 。 男 一 个 问题 是 ， 打 了 猴子 
- 的 两 个 库 可 能 相互 牵 绊 ， 因 为 第 二 个 库 可 能 撤销 了 第 一 个 库 的 
补丁 。 


不 过 猴子 补丁 也 有 它 的 作用 ， 例 如 可 以 在 运行 时 让 类 实现 协议 。 适 
配器 设计 模式 通过 实现 全 新 的 类 解决 这 种 问题 。 


为 Python 打 猴 子 补 丁 不 难 ， 但 是 有 些 局 限 。 与 Ruby 和 JavaScript 


AX |e], Python 不 允许 为 内 置 类 型 打 猴 子 补丁 。 其 实 我 觉得 这 是 优 
扩 ， 因 为 这 样 可 以 确保 str 对 象 的 方法 始终 是 那些 。 这 一 局 限 能 减 
少 外 部 库 打 的 补丁 有 证 突 的 概率 。 


Java、Go 和 Ruby 的 接口 


从 CH 2.0 (1989 年 发 布 ) 起 ， 这 门 语言 开始 使 用 抽象 类 指定 接 
Oo Java 的 设计 者 选择 不 支持 类 的 多 重 继 承 ， 这 排除 了 使 用 抽象 类 
作为 接口 规范 的 可 能 性 ， 因 为 一 个 类 通常 会 实现 多 个 接口 。 但 是 ， 
Java 的 设计 者 添加 了 interface 这 个 语言 结构 ， 而 且 人 允许 一 个 类 
实现 多 个 接口 一 一 这 是 一 种 多 重 继承 。 以 更 为 明确 的 方式 定义 接口 
是 Java 的 一 大 贡献 。 在 Java 8 中 ， 接 口 可 以 提供 方法 实现 ， 这 叫 
默认 方法 
(https://docs.oracle.com/javase/tutorial/java/Iandl/defaultmethods.html ) 。 
有 了 这 个 功能 ，Java 的 接口 与 Ct+ 和 Python 中 的 抽象 类 更 像 了 。 


Go 语言 采用 的 方式 完全 不 同 。 首 先 ，Go 不 文 持 继承 。 我 们 可 以 定 
义 接口 ， 但 是 无 需 《〈 其 实 也 不 能 ) 明确 地 指出 茶 个 类 型 实现 了 某 个 
接口 。 编 译 絮 能 目 动 判断 。 因 此 ， 考 虑 到 接口 在 编译 时 检查 ， 但 是 
其 正 重 要 的 是 实现 了 什么 类 型 ，Go 语言 可 以 说 是 具有 “静态 鸭子 类 


与 Python 相 比 ， 对 Go 来 说 就 好 像 每 个 抽象 基 类 都 实现 了 
__subclasshook_ 方法 ， 它 会 检查 函数 的 名 称 和 签名 ， 而 我 们 上 自 
己 从 不 需要 继承 或 注册 抽象 基 类 。 如 果 想 让 Python 更 像 Go， 可 以 
对 所 有 函数 参数 做 类 型 检查 。Python 提供 了 部 分 基础 设施 (参见 
5.9 节 ) 。Guido 说 过 ， 他 不 介意 使 用 注解 做 类 型 检查 ， 至 少 在 辅助 
工具 中 可 以 这 么 做 。 详 情 参阅 第 5 章 的 “杂谈 ?”。 


Ruby 程序 员 是 鸭子 类 型 的 坚定 拥护 者 ， 而 且 Ruby 没有 声明 接口 或 
抽象 类 的 正式 方式 ， 只 能 像 Python 2.6 之 前 的 版 本 那样 做 ， 即 在 方 
法 的 定义 体 中 抛 出 NotImplementedError， 以 此 表明 方法 是 抽象 
的 ， 用 户 必 须 在 子 类 中 实现 。 


不 过 ，2014 年 9 H, Ruby 之 父 松本 行 弘 在 日 本 举办 的 Ruby 
Kaigi 〈 最 重要 的 Ruby 大 会 之 一 ， 每 年 举办 ) 中 做 了 一 场 主题 演 
讲 ， 他 透露 说 ，Ruby 未 来 可 能 会 支持 静态 类 型 。 目 前 我 还 没 看 到 
相关 报道 ， 但 是 根据 Godfrey Chan 的 博客 文章 “Ruby Kaigi 2014: 


Day 2” Chttp://brewhouse.io/blog/2014/09/19/ruby-kaigi-2014-day- 
2) ， 松 本 行 弘 关注 的 似乎 是 函数 注解 。 他 甚至 还 提 到 了 Python 的 
函数 注解 。 


在 没有 抽象 基 类 同类 型 系统 添加 结构 ， 以 及 不 丧失 灵活 性 的 情况 
ae AE, Ruby 未 来 可 能 还 会 文 持 
正式 接口 。 


我 相信 ，Python 的 抽象 基 类 在 register 函数 和 
subclasshook ”方法 的 协助 下 能 把 正式 接口 带 入 这 门 语 言 ， 而 
且 不 失去 动态 类 型 的 优势 。 


BYE, RETEST. 
接口 中 的 隐喻 和 习惯 用 法 


隐喻 能 打破 壁垒 ， 让 人 更 易于 理解 。 使 用 “ 栈 ” 和 “队列 ”描述 基本 的 
数据 类 型 就 有 这 样 的 功效 : 这 两 个 词 清楚 地 道 出 了 添加 或 删除 元 素 
的 方式 。 另 一 方面 ，Alan Cooper 在 《交互 设计 精髓 (第 4 版 〉》 
中 写 道 : 


严格 奉行 隐喻 设计 晤 无 必要 ， 却 把 界面 死 死 地 与 物理 世界 的 运 
行 机 制 捆绑 在 一 起 。 


他 说 的 是 用 户 界 面 ， 但 对 API 同样 适用 。 不 过 Cooper 同意 ， 当 “ 真 
正 合 适 的 ”隐喻 “正中 下 怀 ? 时 ， 可 以 使 用 隐喻 〈 他 用 的 词 是 “正中 下 
怀 ”， 因 为 合适 的 隐喻 可 遇 不 可 求 ) 。 我 觉得 本 章 用 宾 果 机 作 比 喻 
是 合适 的 ， 我 相信 自己 。 


我 读 过 不 少 U 设计 方面 的 书 ，《 交 互 设 计 精 做 》 是 最 好 的 。 我 从 
Cooper 的 书 中 学 到 的 最 宝贵 的 知识 是 ， 不 把 隐喻 当 作 设计 范式 ， 而 
代 之 以 “习惯 用 法 的 界面 ”。 前 面 说 过 ，Cooper 说 的 不 是 API， 但 是 
我 越 深入 思考 他 的 观点 ， 越 觉得 可 以 将 之 运用 到 Python 中 。Python 
语言 的 基本 协议 就 是 Cooper 所 说 的 “习惯 用 法 ”"。 知 道 “ 序 列 * 是 什 
么 之 后 ， 可 以 把 这 些 知识 应 用 到 不 同 的 场合 。 这 正 是 本 书 的 主要 目 
的 : 着 重 讲解 这 门 语 言 的 基本 惯用 法 ， 让 你 的 代码 简洁 、 高 效 且 可 
读 ， 把 你 打造 成 熟练 的 Python 程序 员 。 


BÆ, typing 模块 已 经 纳入 Python 3.5。 一 一 编者 注 
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B 109 页 给 出 的 示例 。 
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(我 们 ) 推出 继承 的 初衷 是 让 新 手 顺 利 使 用 只 有 专家 才能 设计 出 来 
的 框架 。 1 


Alan Kay 
“The Early History of Smalltalk” 


‘Alan Kay,“The Early History of Smalltalk,’in SIGPLAN Not. 28, 3 (March 1993), 69-95. 网 上 也 有 这 
篇 文章 Chttp//propella.sakura.ne.jp/earlyHistoryST/EarlyHistoryST.html) 。 感 谢 我 的 朋友 Christiano 
Anderson 在 我 写 这 一 章 时 告诉 我 这 篇 参考 文献 。 


本 章 探 讨 继承 和 子 类 化 ， 重 点 是 说 明 对 Python 而 言 尤为 重要 的 两 个 细 
i: 


。 子 类 化 内 置 类 型 的 缺点 
。 多 重 继 承 和 方法 解析 顺序 


很 多 人 觉得 多 重 继 承 得 不 偿 失 。 不 支持 多 重 继 承 的 Java 显然 没有 什么 
WR, CH 对 多 重 继 承 的 滥用 伤害 了 很 多 人 ， 这 可 能 还 坚定 了 使 用 Java 
的 决心 。 


PRIM, Java 的 巨大 成 功 和 广泛 影响 ， 也 导致 很 多 刚 接触 Python 的 程序 员 
没 怎么 见 过 真实 的 代码 使 用 多 重 继承 。 鉴 于 此 ， 我 们 将 不 再 举 简 单 的 示 
例 ， 而 是 通过 两 个 重要 的 Python 项 目 探讨 多 重 继承 ， 这 两 个 项 目 是 GUI 
工具 包 Tkinter 和 Web 框架 Django。 


我 们 将 首先 分 析 子 类 化 内 置 类 型 的 问题 。 本 章 余 下 的 内 容 则 探讨 多 重 继 
我 们 将 分 析 案 例 ， 并 讨论 构建 类 层次 结构 方面 好 的 做 法 和 不 好 的 做 
a 


12.1 FRUABAY EM 


在 Python 2.2 之 前 ， 内 置 类 型 (如 list dict) 不 能 子 类 化 。 在 
Python 2.2 之 后 ， 内 置 类 型 可 以 子 类 化 了 ， 但 是 有 个 重要 的 注意 事项 : 
内 置 类 型 (使 用 C 语言 编写 ) 不 会 调用 用 户 定 义 的 类 用 六 的 特殊 方法 。 


PyPy 的 文档 使 用 简明 扼要 的 语言 描述 了 这 个 问题 ， 见 于 “Differences 
between PyPy and CPython”* 中 “Subclasses of built-in types” 一 市 

(http://pypy.readthedocs.io/en/latest/cpython differences.html#subclasses- 
of-built-in-types) : 


ATA BRGN FRE HIT EZAR Basti, CPython 没有 制 
定 官方 规则 。 基 本 上 ， 内 置 类 型 的 方法 不 会 调用 子 类 徐 新 的 方法 。 
例如 ，dict 的 子 类 禾 六 的 ”getitem _() 方法 不 会 被 内 置 类 型 的 
get() 方法 调用 。 


示例 12-1 说 明了 这 个 问题 。 


示例 12-1 内 置 类 型 dict 的 _init _ 和 update _ 方法 会 忽 
ERI eH setitem_ 方法 


>>> class DoppelDict(dict): 
def _ setitem_(self, key, value): 
super(). setitem (key, [value] * 2) # © 


>>> dd = DoppelDict(one=1) #@ 

>>> dd 

{'one': 1} 

>>> dd['two'] = 2 #0 

>>> dd 

{'one': 1, 'two': [2, 2]} 

>>> dd.update(three=3) # @ 

>>> dd 

{'three': 3, ‘'one': 1, ‘'two': [2, 2]} 


@ DoppelDict. setitem ”方法 会 重复 存 入 的 值 〈 只 是 为 了 提供 易 
于 观察 的 效果 ) 。 它 把 职责 委托 给 超 类 。 


© 47K H dict 的 _init 方法 显然 忽略 了 我 们 宪 盖 的 __setitem __ 
方法 : 'one' 的 值 没有 重复 。 


@@ [] 运算 符 会 调用 我 们 履 盖 的 ”setitem _ 方法 ， 按 预期 那样 工 
YE: “two' 对 应 的 是 两 个 重复 的 值 ， 即 [2, 2]. 


O 继承 自 dict 的 update 方法 也 不 使 用 我 们 履 盖 的 setitem_。 Ù 
法 : 'three' 的 值 没有 重复 。 


原生 类 型 的 这 种 行为 违背 了 面向 对 象 编程 的 一 个 基本 原则 : 始终 应 该 从 
实例 (self) 所 属 的 类 开始 搜索 方法 ， 即 使 在 超 类 实现 的 类 中 调用 也 是 
如 此 。 在 这 种 糟糕 的 局 面 中 ， ”missing _ 方法 (参见 3.4.2 节 ) 却 能 
按 预期 方式 工作 ， 不 过 这 只 是 特例 。 


不 只 实例 内 部 的 调用 有 这 个 问题 Cself.get() 不 调用 

self. _getitem_()) ， 内 置 类 型 的 方法 调用 的 其 他 类 的 方法 ， 如 果 

被 覆盖 了 ， 也 不 会 被 调用 。 示 例 12-2 是 一 个 例子 ， 改 编 自 PyPy 文档 中 

的 示例 
(http://pypy.readthedocs.io/en/latest/cpython_differences.html#subclasses- 

of-built-in-types) 。 


示例 12-2 dict.update 方法 会 忽略 AnswerDict. getitem _ 
方法 
>>> class AnswerDict(dict): 


def _ getitem (self, key): #@ 
return 42 


ad = AnswerDict(a='foo') # @ 
ad['a'] #69 


d = {} 
d.update(ad) # © 
d['a'] # O 


@ 不 管 传 入 什么 键 ，AnswerDict. getitem _ 方法 始终 返回 42. 


© ad & AnswerDict 的 实例 ， 以 ('a'， 'foo') 键 值 对 初始 化 。 
@ ad['a'] 返回 42， 这 与 预期 相符 。 
O d 是 dict 的 实例 ， 使 用 ad 中 的 值 更 新 d。 


@ dict.update 方法 忽略 了 AnswerDict. getitem _ 方法 。 


Ba 直接 子 类 化 内 置 类 型 (如 dict, list Mstr) 容易 出 错 ， 
因为 内 置 类 型 的 方法 通常 会 忽略 用 户 窗 新 的 方法 。 不 要 子 类 化 内 置 
类 型 ， 用 户 自己 定义 的 类 应 该 继承 collections 模块 
(http://docs.python.org/3/library/collections.html〉 中 的 类 ， 例 如 
UserDict、UserList 和 UserString， 这 些 类 做 了 特殊 设计 ， 
此 易于 扩展 。 


如 果 不 子 类 化 dict， 而 是 子 类 化 collections.UserDict， 示 例 12-1 
和 示例 12-2 中 暴露 的 问题 便 迎 刃 而 解 了 。 人 参见 示 例 12-3. 


示例 12-3 DoppelDict2 和 AnswerDict2 能 像 预期 那样 使 用 ， 
为 它们 扩展 的 是 UserDict， 而 不 是 dict 


>>> import collections 
>>> 
>>> class DoppelDict2(collections.UserDict): 
def _ setitem_(self, key, value): 
super(). setitem (key, [value] * 2) 


>>> dd = DoppelDict2(one=1) 
>>> dd 
{'one': [1, 1]} 
>>> dd['two'] = 2 
>>> dd 
{'two': [2, 2], ‘one’: [1, 1]} 
>>> dd.update(three=3) 
>>> dd 
{'two': [2, 2], ‘three’: [3, 3], ‘one’: [1, 1]} 
>>> 
>>> class AnswerDict2(collections.UserDict): 
def _ getitem_(self, key): 
return 42 


>>> ad = AnswerDict2(a='foo' ) 
>>> ad['a'] 

42 

>>> d = {} 

>>> d.update(ad) 

>>> d['a'] 


为 了 衡量 子 类 化 内 置 类 型 所 需 的 额外 工作 量 ， 我 做 了 个 实验 ， 重 写 了 示 
例 3-8 中 的 StrKeyDict 类 。 原 始 版 继承 自 collections.UserDict, 
而 且 只 实现 了 三 个 方法 : _ missing ~ _ contains 和 
_setitem ” 。 在 实验 中 ， strkeyDict 直接 子 类 化 dict， 而 且 也 实 
现 了 那 三 个 方法 ， 不 过 根据 存储 数据 的 方式 稍微 做 了 调整 。 可 是 ， 为 了 
让 实验 版 通过 原始 版 的 测试 组 件 ， 还 要 实现 “init 、get 和 update 
方法 ， 因 为 继承 自 dict 的 版 本 拒绝 与 覆盖 的 
__missing 、 contains 和 setitem _ 方法 合作 。 示 例 3-8 
oy UserDict FAA 16 行 代码 ， 而 实验 的 dict FAA 37 行 代 


?如 果 好 奇 ， 实 验 版 在 本 书 代码 仓库 (httpsWgithub.comyfluentpythonexample-code) 里 的 
strkeydict_ dictsub.py 文件 中 。 


综 上 ， 本 节 所 述 的 问题 只 发 生 在 C 语言 实现 的 内 置 类 型 内 部 的 方法 委托 
上 ， 而 且 只 影响 直接 继承 内 置 类 型 的 用 户 自 定义 类 。 如 果子 类 化 使 用 
Python 4 写 的 类 ， 如 UserDict 或 ee 就 不 会 受 此 影 
啊 。 


3 顺便 说 一 下 ， 在 这 方面 ，PyPy 的 行为 比 CPython* 正 确 "， 不 过 会 导致 微小 的 差异 。 详 情 参 
见 “Differences between PyPy and 

CPython” Chttp://pypy.readthedocs.io/en/latest/cpython_differences.html#subclasses-of-built-in- 
types) 。 


与 继承 ， 尤 其 是 多 重 继 承 有 关 的 男 一 个 问题 是 : 如 果 同 级 别 的 超 类 定义 
了 同名 属性 ，Python 如 何 确定 使 用 哪个 ? 下 一 节 解 答 。 


12.2 多重 继 承 和 方法 解析 顺序 


任何 实现 多 重 继 承 的 语言 都 要 处 理 潜在 的 命名 冲突 ， 这 种 冲突 由 不 相关 
的 祖先 类 实现 同名 方法 引起 。 这 种 冲突 称 为 “ 鞭 形 问题 ”， 如 图 12-1 和 
示例 12-4 所 示 。 


图 12-1: (A) WHEE w” UML ŠR; (A) 虚线 箭头 是 示 
例 12-4 使 用 的 方法 解析 顺序 


示例 12-4 diamond.py: 图 12-1 中 的 A、B、C 和 D 四 个 类 


class A: 
def ping(self): 
print('ping:', self) 


class B(A): 
def pong(self): 
print('pong:', self) 


class C(A): 
def pong(self): 
print('PONG:', self) 


class D(B, C): 


def ping(self): 
super().ping() 


print('post-ping:', self) 


de 


-h 


pingpong(self): 
self.ping() 
super().ping() 
self .pong() 
super().pong() 
C.pong(self) 


注意 ，B 和 C 都 实现 了 pong 方法 ， 二 者 之 间 唯 一 的 区 别 是 ，C.pong 方 
法 输出 的 是 大 写 的 PONG. 


在 D 的 实例 上 调用 d. pong() 方法 的 话 ， 运行 的 是 哪个 pong 方法 呢 ? 


在 C++ 中 ， 程 序 员 必须 使 用 类 名 限定 方法 调用 来 避免 这 种 歧义 。Python 
也 能 这 么 做 ， 如 示例 12-5 所 示 。 


示例 12-$ 在 D 实例 上 调用 pong 方法 的 两 种 方式 


>>> from diamond import * 
>>> d = D() 
>>> d.pong() #@ 


pong: <diamond.D object at 9x10@66c278> 
>>> C.pong(d) #@ 
PONG: <diamond.D object at 9x10@66c278> 


O 直接 调用 d.pong() 运行 的 是 B 类 中 的 版 本 。 
O 超 类 中 的 方法 都 可 以 直接 调用 ， 此 时 要 把 实例 作为 显 式 参数 传 入 。 


Python 能 区 分 d.pong() 调用 的 是 哪个 方法 ， 是 因为 Python 会 按照 特定 
的 顺序 遇 历 继承 图 。 这 个 顺序 叫 方法 解析 顺序 (Method Resolution 
Order, MRO) 。 类 都 有 一 个 名 为 ”mro_ ”的 属性 ， 它 的 值 是 一 个 元 
组 ， 按 照 方 法 解析 顺序 列 出 各 个 超 类 ， 从 当前 类 一 直 向 上 ， 直 到 
object 类 。D 类 的 ”mro _ 属性 如 下 (如 图 12-1 所 示 ) : 


>>> D. mpro 
(<class 'diamond.D'>, <class 'diamond.B'>, <class 'diamond.C'>, 


<class 'diamond.A'>, <class ‘object'>) 


AREA BCA, HEN Te (EAA AY super() K 


A. TE Python 3 中 ， 这 种 方式 变 得 更 容易 了 ， 如 示例 12-4 中 D 类 的 
pingpong 方法 所 示 。4 然而 ， 有 时 可 能 需要 绕 过 方法 解析 顺序 ， 直 接 
调用 某 个 超 类 的 方法 一 这样 做 有 时 更 方便 。 例 如 ，D.ping 方法 可 以 
这 样 写 : 


4 在 Python 2 中 ， 要 把 D.pingpong 方法 的 第 二 行 从 super() .ping() 改 成 super(D， 
self).ping()。 


def ping(self): 
A.ping(self) # 而 不 是 super().ping() 


print('post-ping:', self) 


注意 ， 直 接 在 类 上 调用 实例 方法 时 ， 必 须 显 式 传 入 self 参数 ， 因 为 这 
样 访问 的 是 未 绑 定 方法 Cunbound method) 。 


然而 ， 使 用 super() 最 安全 ， 也 不 易 过 时 。 调 用 框架 或 不 受 自 己 控制 
的 类 层次 结构 中 的 方法 时 ， 尤 其 适合 使 用 super() 。 使 用 super() 调 
用 方法 时 ， 会 遵守 方法 解析 顺序 ， 如 示例 12-6 所 示 。 


ra 12-6 使 用 super() 函数 调用 ping 方法 (源码 在 示例 12-4 
) 


>>> from diamond import D 
>>> d = D() 


>>> d.ping() # © 
ping: <diamond.D object at 6x16cc46636> # @ 
post-ping: <diamond.D object at 6x16cc46636> # © 


Q D 类 的 ping 方法 做 了 两 次 调用 。 


© 第 一 个 调用 是 super().ping(); super 函数 把 ping 调用 委托 给 A 
K; 这 一 行 由 A.ping 输出 。 


© 第 二 个 调用 是 print('post-ping:'，self)， 输 出 的 是 这 一 行 。 


下 面 来 看 在 D 实例 上 调用 pingpong 方法 得 到 的 结果 ， 如 示例 12-7 所 
示 。 


示例 12-7 pingpong 方法 的 5 个 调用 (源码 在 示例 12-4 中 ) 


>>> from diamond import D 

>>> d = D() 

>>> d.pingpong() 

ping: <diamond.D object at @x1@bf235c@> # © 


post-ping: <diamond.D object at @x1@bf235c@> 
ping: <diamond.D object at @x1@bf235c@> # @ 
pong: <diamond.D object at 0x10bf235c0> # © 
pong: <diamond.D object at 0x10bf235c0> # @ 
PONG: <diamond.D object at 0x10bf235c0> # O 


@ 第 一 个 调用 是 self.ping()， 运 行 的 是 D 类 的 ping 方法 ， 输 出 这 
一 行 和 下 一 行 。 

四 第 二 个 调用 是 super().ping()， 跳 过 D 类 的 ping 方法 ， 找 到 A 类 
的 ping 方法 。 


O 第 三 个 调用 是 self.pong()， 根据 ”mro ， 找到 的 是 B 类 实现 的 
pong 方法 。 


O 第 四 个 调用 是 super() .pong()， 也 根据 _mro  ， 找 到 B 类 实现 
的 pong 方法 。 


O 第 五 个 调用 是 C.pong(self)， 忽 略 mro ， 找 到 的 是 C 类 实现 的 
pong 方法 。 


方法 解析 顺序 不 仅 考 虑 继承 图 ， 还 考虑 子 类 声明 中 列 出 超 类 的 顺序 。 也 
就 是 说 ， 如 果 在 diamond.py 文件 〈 见 示例 12-4) 中 把 D 类 声明 为 
class D(C，B):， 那 么 D 类 的 ”mro _ 属性 就 会 不 一 样 : 先 搜 索 C 
类 ， 再 搜索 B 类 。 


分 析 类 时 ， 我 经 疝 在 交互 式 控制 合 中 查看 __mro__ 属 性。 示例 12-8 中 
征 一 些 常用 类 的 方法 搜索 顺序 。 


示例 12-8 ”查看 几 个 类 的 _ mro ”属性 


>>> bool. _nmro @ 
(<class 'bool'>, <class 'int'>, <class ‘'object'>) 
>>> def print_mro(cls): @ 


print(', '.join(c.__name__ for c in cls. _mro_)) 


>>> print_mro(bool) 

bool, int, object 

>>> from frenchdeck2 import FrenchDeck2 

>>> print_mro(FrenchDeck2) © 

FrenchDeck2, MutableSequence, Sequence, Sized, Iterable, Container, object 
>>> import numbers 

>>> print_mro(numbers.Integral) @ 

Integral, Rational, Real, Complex, Number, object 
>>> import io © 

>>> print_mro(io.BytesI0O) 

BytesIO, BufferedIOBase, IOBase, object 

>>> print_mro(io.TextIOWrapper) 

TextIOWrapper, _TextIOBase, _IOBase, object 


@ bool 从 int 和 object 中 继承 方法 和 属性 。 
© print_mro pk AC A E KED EAN ERAT I - 


@ FrenchDeck2 类 的 祖先 包含 collections.abc 模块 中 的 几 个 抽象 
FEZ 


@ 这 些 是 numbers 模块 提供 的 几 个 数字 抽象 基 类 。 


O io 模块 中 有 抽象 基 类 (名 称 以 .. .Base 后 绥 结 尾 )》 和 具体 类 ， 如 
BytesIO 和 TextIOWrapper。open() 函数 返回 的 对 象 属于 这 些 类 型 ， 
具体 要 根据 模式 参数 而 定 。 


A 


方法 解析 顺序 使 用 C3 算法 计算 。Michele Simionato 的 论文 “The 
Python 2.3 Method Resolution 

Order” Chttps://www.python.org/download/releases/2.3/mro/) 对 
Python 方法 解析 顺序 使 用 的 C3 算法 做 了 权威 论述 。 如 果 对 方法 解 
析 顺 序 的 细节 感 兴趣 ， 可 以 阅读 延伸 阅读 中 给 出 的 资料 。 不 用 过 分 
担心 ，C3 算法 不 难 理解 ，Simionato Sid: 


or BRAK ee EAR, ARR ARAN SH, ANIA 
用 了 解 C3 算法 ， 因 此 也 不 用 阅读 这 篇 论文 。 


结束 对 方法 解析 顺序 的 讨论 之 前 ， 我 们 来 看 看 图 12-2。 这 幅 图 展示 了 
Python 标准 库 中 GUI TRE, Tkinter 复杂 的 多 重 继承 图 。 研 究 这 幅 图 

时 ， 要 从 底部 的 Text 类 开始 。 这 个 类 全 面 实 现 了 多 行 可 编辑 文本 小 组 
件 ， 它 目 身 有 丰富 的 功能 ， 不 过 也 从 其 他 类 继承 了 很 多 方法 。 左 边 是 常 
HAJ UML 类 图 。 右 边 加 入 了 一 些 箭头 ， 表 示 方 法 解析 顺序 。 使 用 示例 
12-8 中 定义 的 便利 函数 print_mro 得 到 的 输出 如 下 : 


>>> import tkinter 
>>> print_mro(tkinter. Text) 


Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 


| obiect hy : 
A. Misc Z 
BaseWidget ; BaseWidget 
一 八 I 八 ` 
<mixin>> [| 
Pack V I I 
= 1 ’ 
<<mixin>> 
Place [>l Wage | | | 
7 A 1 
<<mixin>> ` 
Grid ` 
\ 


图 12-2: (Æ) Tkinter 中 Text 小 组 件 类 及 其 超 类 的 UML 类 图 ; 
CE) 使 用 虚线 箭头 表示 Text. mro 


下 一 节 以 真实 框架 为 例 说 明 多 重 继承 的 优 缺 点 。 


123 多重 继 承 的 真实 应 用 


多 重 继承 能 发 挥 积 极 作 用 。《 设 计 模 式 : 可 复 用 面 同 对 象 软件 的 基础 》 
一 书 中 的 适配器 模式 用 的 就 是 多 重 继 承 ， 因 此 使 用 多 重 继承 肯定 没有 错 
的 其 他 22 个 设计 模式 都 使 用 单 继承 ， 因 此 多 重 继承 显然 不 

是 3 ZI) o 


在 Python 标准 库 中 ， 最 常 使 用 多 重 继 承 的 是 collections.abc 包 。 这 
没什么 问题 ， 毕 竟 连 Java 都 支持 接口 的 多 重 继承 ， 而 抽象 基 类 就 是 接 
口 声明 ， 只 不 过 它 可 以 提供 具体 方法 的 实现 。” 


5 前 面 说 过 ，Java 8 也 允许 提供 方法 实现 。 这 个 新 功能 在 官方 的 Java 教程 中 叫 默 认 方法 
Chttps://docs.oracle.com/javase/tutorial/java/IandI/defaultmethods.html) 。 


在 标准 库 中 ，GUI 工具 包 Tkinter (tkinter 模块 是 Tel/Tk 的 Python 接 
口 ，https:/docs.python.org/3/librarytkinter.html) 把 多 重 继承 用 到 了 极 
致 。 图 12-2 中 展示 的 方法 解析 顺序 是 Tkinter 小 组 件 层次 结构 的 一 部 
分 ， 图 12-3 则 列 出 了 tkinter 基 包 中 的 全 部 小 组 件 类 (tkinter .ttk 
子 包 中 还 有 一 些 ，https://docs.python.org/3/library/tkinter.ttk.html〉。 


wn kd 
© [Studbutton | 
= y C ewon E 
[object | À 
A ý | checkoution | 
| [ Basewidget | 


BaseWidget 

LabelFrame 
[ Menubutton K 
PanedWindow 


© (4) 


图 12-3: Tkinter GUI 类 层次 结构 的 UML 简 图 ; 使 用 «mixin» 标记 的 
类 通过 多 重 继承 为 其 他 类 提供 具体 方法 


写作 本 书 时 ，Tkinter 已 经 20 岁 了， 不 能 代表 当下 的 最 佳 实践 。 但 是 ， 
它 却 能 表明 当 没 有 意识 到 多 重 继承 的 缺点 时 ， 程 序 员 是 如 何 使 用 多 重 继 
承 的 。 下 一 节 讨 论 一 些 好 的 做 法 时 ， 会 把 Tkinter 作为 反面 教材 。 

来 看 图 12-3 中 的 几 个 类 。 

@Toplevel: 表示 Tkinter 应 用 程序 中 顶层 窗口 的 类 。 

@ widget: 窗口 中 所 有 可 见 对 象 的 超 类 。 

© Button: 普通 的 按钮 小 组 件 。 

© Entry: 单行 可 编辑 文本 字段 。 

O Text: 多 行 可 编辑 文本 字段 。 


这 几 个 类 的 方法 解析 顺序 如 下 ， 这 些 输出 使 用 示例 12-8 中 定义 的 
print_mro 函数 得 到 : 


>>> import tkinter 

>>> print_mro(tkinter.Toplevel) 

Toplevel, BaseWidget, Misc, Wm, object 

>>> print_mro(tkinter.Widget) 

Widget, BaseWidget, Misc, Pack, Place, Grid, object 


>>> print_mro(tkinter.Button) 

Button, Widget, BaseWidget, Misc, Pack, Place, Grid, object 

>>> print_mro(tkinter.Entry) 

Entry, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, object 

>>> print_mro(tkinter. Text) 

Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 


在 类 之 间 的 关系 方面 有 几 点 要 注意 。 


。Toplevel 是 所 有 图 形 类 中 唯一 没有 继承 Widget 的 ， 因 为 它 是 顶 
层 窗口 ， 行 为 不 像 小 组 件 ， 例 如 不 能 依附 到 窗口 或 窗 体 
上 。Toplevel 继承 自 Wm， 后 者 提供 直接 访问 答 主 窗口 管理 如 的 孙 
数 ， 例 如 设置 窗口 标题 和 配置 窗口 边框 。 


e Widget 直接 继承 自 BaseWidget， 还 继承 了 Pack、Place 和 
Grid。 后 三 个 类 是 几何 管理 器 ， 人 负责 在 窗口 或 窗 体 中 排 布 小 组 件 。 
各 个 类 封装 了 不 同 的 布局 策略 和 小 组 件 位 置 API. 


e Button 与 大 多 数 小 组 件 一 样 ， 只 是 Widget 的 子 代 ， 也 间接 继承 
Misc， 后 者 为 各 个 小 组 件 提供 了 大 量 方 法 。 


e Entry 是 Widget 和 XView 的 子 类 ， 后 者 实现 横向 滚动 。 


e Text 是 Widget. XView 和 Wiew 的 子 类 ， 后 者 提供 纵向 滚动 功 


au 
HE o 


下 面 将 讨论 多 重 继承 一 些 好 的 做 法 ， 看 看 Tkinter 有 没有 践 行 。 


12.4 处 理 多 重 继承 


我 们 需要 一 种 更 好 的 、 全 新 的 继承 理论 《〈“ 目 前 仍 是 如 此 ) 。 例 
如 ， 继 承 和 实例 化 (一 种 继承 方式 ) 混 清 了 语 用 (比如 为 了 节省 空 
间 而 重 构 代码 ) 和 语义 用途 太 多 了 ， 比 如 特殊 人 化、 普遍 化 、 形 


At A 
AS, ES) 。 


Alan Kay 
“The Early History of Smalltalk” 


如 Alan Kay 所 言 ， 继 承 有 很 多 用 途 ， 而 多 重 继承 增加 了 可 选 方案 和 复 
杂 度 。 使 用 多 重 继承 容易 得 出 令 人 费解 和 脆弱 的 设计 。 我 们 还 没有 完整 
的 理论 ， 下 面 是 避免 把 类 图 搅乱 的 一 些 建议 。 

01. 把 接口 继承 和 实现 继承 区 分 开 


a eens ie en reer 
能 有 : 


继承 接口 ， 创 建 子 类 型 ， 实 现 “ 是 什么 ”关系 

继承 实现 ， 通 过 重用 避免 代码 重复 
其 实 这 两 条 经 常 同时 出 现 ， 不 过 只 要 可 能 ， 一 定 要 明确 意图 。 通 过 
继承 重用 代码 是 实现 细节 ， 通 常 可 以 换 用 组 合 和 委托 模式 。 而 接口 
继承 则 是 框架 的 支柱 。 

02. 使 用 抽象 基 类 显 式 表示 接口 
现代 的 Python 中 ， 如 果 类 的 作用 是 定义 接口 ， 应 该 明确 把 它 定 义 为 
抽象 基 类 。Python 3.4 及 以 上 的 版 本 中 ， 我 们 要 创建 abc. ABC 或 其 
他 抽象 基 类 的 子 类 《如 果 想 支持 较 旧 的 Python 版 本 ， 参 见 11.7.1 
TER 


03. 通过 混入 重用 代码 


04. 


05. 


06. 


07. 


如 果 一 个 类 的 作用 是 为 多 个 不 相关 的 子 类 提供 方法 实现 ， 从 而 实现 
重用 ， 但 不 体现 “是 什么 "关系 ， 应 该 把 那个 类 明确 地 定义 为 混入 类 
(mixin class) 。 从 概念 上 讲 ， 混 入 不 定义 新 类 型 ， 只 是 打包 方 
法 ， 便 于 重用 。 混 入 类 绝对 不 能 实例 化 ， 而 且 具 体 类 不 能 只 继承 浊 
入 美 。 混 入 类 应 该 提供 某 方 面 的 特定 行为， 只 实现 少量 关系 非常 紧 
密 的 方法 。 


在 名 称 中 明确 指明 混入 


因为 在 Python 中 没有 把 类 声明 为 混入 的 正规 方式 ， 所 以 强烈 推荐 在 
名 称 中 加 入 ...Mixin 后 级 。Tkinter 没有 采纳 这 个 建议 ， 如 果 采 纳 
的 话 ，XView 会 变 成 XViewMixin，Pack 会 变 成 PackMixin， 图 
12-3 中 所 有 使 用 «mixin» 标记 的 类 都 应 该 这 么 做 。 


抽象 基 类 可 以 作为 混入 ， 反 过 来 则 不 成 立 


抽象 基 类 可 以 实现 具体 方法 ， 因 此 也 可 以 作为 混入 使 用 。 不 过 ， 抽 
象 基 类 会 定义 类 型 ， 而 混入 做 不 到 。 此 外 ， 抽 象 基 类 可 以 作为 其 他 
类 的 唯一 基 类 ， 而 混入 决 不 能 作为 唯一 的 超 类 ， 除 非 继承 男 一 个 更 
具体 的 混入 一 一 真实 的 代码 很 少 这 样 做 。 


抽象 基 类 有 个 局 限 是 混入 没有 的 : 抽象 基 类 中 实现 的 具体 方法 只 能 
与 抽象 基 类 及 其 超 类 中 的 方法 协作 。 这 表明 ， 抽 象 基 类 中 的 具体 方 
法 只 是 一 种 便利 措施 ， 因 为 这 些 方法 所 做 的 一 切 ， 用 户 调 用 抽象 基 
类 中 的 其 他 方法 也 能 做 到 。 


不 要 子 类 化 多 个 具体 类 


具体 类 可 以 没有 ， 或 最 多 只 有 一 个 具体 超 类 。 也 就 是 说 ， 具 体 类 
的 超 类 中 除了 这 一 个 具体 超 类 之 外 ， 其 余 的 都 是 抽象 基 类 或 混入 。 
例如 ， 在 下 述 代码 中 ， 如 果 Alpha 是 具体 类 ， 那 么 Beta 和 Gamma 
必须 是 抽象 基 类 或 混入 : 


class MyConcreteClass(Alpha, Beta, Gamma): 


""" 这 是 一 个 具体 类 ， 可 以 实例 化 。"" 


AP te th a 


08. 


OR TH ARE EA A te RSE a A, Wike — Ai 
类 ， 使 用 易于 理解 的 方式 把 它们 结合 起 来 。Grady Booch 把 这 种 类 


称 为 聚合 类 (aggregate class) 。 7 


例如 ， 下 面 是 tkinter.Widget 类 的 完整 代码 
Chttps://hg.python.org/cpython/file/3.4/Lib/tkinter/ init .py#l2141) : 


class Widget(BaseWidget, Pack, Place, Grid): 
"""Internal class. 


Base class for a widget which can be positioned with the 
geometry managers Pack, Place or Grid.""" 
pass 


Widget 类 的 定义 体 是 空 的 ， 但 是 这 个 类 提供 了 有 用 的 服务 : 把 四 
个 超 类 结合 在 一 起 ， 这 样 需要 创建 新 小 组 件 的 用 户 无 需 记 住 全 部 混 
入 ， 也 不 用 担心 声明 class 语句 时 有 没有 遵守 特定 的 顺序 。Django 
中 的 ListView 类 是 更 好 的 例子 ， 稍 后 在 12.5 节 讨 论 。 


“优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ” 


这 句 话 引 自 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 ，% 这 
是 我 能 提供 的 最 佳 建议 。 熟 悉 继承 之 后 ， 就 太 容 易 过 度 使 用 它 了 。 
出 于 对 秩序 的 诉求 ， 我 们 喜欢 按 整 党 的 层次 结构 放置 物品 ， 程 序 员 
更 是 乐此不疲 。 


然而 ， 优 先 使 用 组 合 能 让 设计 更 灵活 。 例 如 ， 对 tkinter.Widget 
类 来 说 ， 它 可 以 不 从 全 部 几何 管理 器 中 继承 方法 ， 而 是 在 小 组 件 实 
例 中 维护 一 个 几何 管理 器 引用 ， 然 后 通过 它 调 用 方法 。 上 毕竟， 小 组 
件 “ 不 是 ”几何 管理 器 ， 但 是 可 以 通过 委托 使 用 相关 的 服务 。 这 样 ， 

我 们 可 以 放心 添加 新 的 几何 管理 器 ， 不 必 担 心 会 触动 小 组 件 类 的 层 
次 结构 ， 也 不 必 担 心 名 称 冲突 。 即 便 是 单 继承 ， 这 个 原则 也 能 提升 
灵活 性 ， 因 为 子 类 化 是 一 种 紧 耦 合 ， 而 且 较 高 的 继承 树 容 易 倒 。 


组 合 和 委托 可 以 代 答 混入 ， 把 行为 提供 给 不 同 的 类 ， 但 是 不 能 取代 
接口 继承 去 定义 类 型 层次 结构 。 


6 在 “水 禽 和 抽象 基 类 ”中 ，Alex Martelli 提 到 Scott Meyer 写 的 More Effective C++ 一 书 ， 他 做 得 


更 绝 , “将 非 尾 端 类 设计 为 抽象 类 ”(〈 即 ， 有 基体 类 根本 不 应 该 有 具体 超 类 ) 。 


7 如 果 一 个 类 的 结构 主要 继承 自 混入 ， 自 身 没有 添加 结构 或 行为 ， 那 么 这 样 的 类 称 为 聚合 
类 。”Grady Booch et al., Object Oriented Analysis and Design, 3E (Addison-Wesley, 2007), p. 109. 


5《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 第 13 页 。 


接 下 来 ， 我 们 将 从 这 些 建议 入 手 分 析 Tkinter. 
Tkinter 好 的 、 不 好 的 和 令 人 厌恶 的 方面 


` 记 住 一 点 ， 自 1994 年 发 布 的 Python 1.1 #2, Tkinter 就 在 标准 
EP o Tkinter 的 底层 是 Tel 语言 优秀 的 GUI 工具 包 Tk. Tel/Tk 组 
合 原本 不 是 面向 对 象 的 ， 因 此 Tk API 基 本 上 就 是 一 堆 函 数 。 尽 管 

没有 使 用 面 癌 对 象 方式 实现 ， 但 是 这 个 工具 包 的 理念 极 具 面 向 对 象 


4DA 想 o 


前 几 节 给 出 的 建议 Tkinter 大 都 没有 采用 ， 不 过 第 7 点 是 个 例外 。 但 是 
Tkinter 做 得 并 不 好 ， 因 为 使 用 组 合 模 式 把 几何 管理 器 集成 到 Widget 中 
更 好 ， 如 第 8 点 所 述 。 


tkinter.Widget 类 的 文档 字符 串 开 头 说 它 是 “内 部 类 ”。 这 或 许 表 明 
Widget 应 该 定义 为 抽象 基 类 。Widget 自身 虽然 没有 方法 ， 但 是 它 定 义 
了 接口 。 它 传达 的 意思 是 : “每 个 Tkinter 小 组 件 都 会 提供 基本 的 方法 
(init 、destroy， 以 及 众多 Tk API 函数 ) ， 此 外 还 会 提供 三 个 
几何 管理 器 中 的 全 部 方法 。” 你 可 以 不 同意 这 是 定义 接口 的 好 方式 〈 太 
宽泛 了 ) ， 但 是 这 样 确实 能 定义 接口 ，NWidget 就 把 接口 “定义 ”为 超 类 
接口 的 联合 。 


封装 GUI 应 用 逻辑 的 Tk 类 继承 自 Wm 和 Misc， 这 两 个 类 既 不 是 抽象 
类 ， 也 不 是 混入 Wm 不 算是 混入 ， 因 为 TopLevel 的 超 类 只 有 它 一 
个 ) 。Misc 类 的 名 称 本 身 明 显 是 代码 异味 。Misc 有 100 多 个 方法 ， 
而 且 所 有 小 组 件 类 都 继承 它 。 为 什么 每 个 小 组 件 都 要 处 理 剪 切 板 、 文 本 
选择 和 计时 器 等 ? 我 们 可 能 不 能 把 文本 粘贴 到 按钮 上 ， 也 不 能 选择 滚动 
条 里 的 文字 。 Misc 应 该 拆 分 成 几 个 专门 的 混入 类 ， 而 且 不 是 所 有 小 组 
件 都 应 该 继承 这 些 混入 。 


说 实在 的 ， 作 为 Tkinter 的 用 户 ， 你 根本 不 用 知道 或 使 用 多 重 继承 。 那 
些 都 是 隐藏 起 来 的 实现 细 市 ， 你 在 自己 的 代码 中 只 需 实例 化 或 子 类 化 小 
组 件 类 。 不 过 ， 如 果 你 想 奋 找 目 己 需 要 的 方法 ， 在 控制 台中 输入 
dir(tkinter.Button)， 你 会 发 现 列 出 了 214 个 属性 ，” 此 时 你 就 是 多 
重 继承 的 受害 者 。 


9 目前 的 版 本 中 只 有 209 个 属性 。 编者 注 


除了 这 些 问 题 ，Tkinter 还 是 稳定 而 灵活 的 ， 未 必 那 么 不 堪 。 陈 旧 (和 默 
VO 的 Tk 小 组 件 没有 考虑 现代 的 用 户 界面 ， 但 是 Python 3.1 (2009 年 发 
布 ) 提供 了 tkinter.ttk 包 ， 这 个 包 提 供 的 小 组 件 很 精美 ， 外 观 同 原 
生 的 一 样 ， 开 发 出 的 GUI 应 用 也 更 专业 。 此 外 ， 有 些 陈旧 的 小 组 件 ， 如 
Canvas 和 Text， 功 能 异常 强大 。 只 需 少 量 人 代码， 就 能 把 一 个 Canvas 
对 象 打造 成 简单 的 拖 搜 绘图 应 用 。 如 果 你 对 GUI 编程 感 兴趣 ，Tkinter 
和 Tel/Tk 绝对 值得 一 看 。 


然而 ， 我 们 的 主题 不 是 GUI 编程 ， 而 是 多 重 继承 的 运用 。 显 式 使 用 混入 
类 的 现代 示例 在 Django 中 可 以 找到 。 


12.5 一 个 现代 示例 : Django 通 用 视 狗 中 
的 混入 


和 阅读 本 节 不 需要 掌握 Django 知识 。 我 只 是 使 用 这 个 框架 的 一 
小 部 分 为 例 说 明 多 重 继承 的 运用 ， 我 会 尽量 给 出 所 需 的 全 部 背景 知 
识 ， 而 且 假 设 你 使 用 其 他 语言 或 框架 做 过 服务 器 端 Web 开发 。 


在 Django 中， 视图 是 可 调用 的 对 象 ， 它 的 参数 是 表示 HTTP 请 求 的 对 
象 ， 返 回 值 是 一 个 表示 HTTP 响应 的 对 象 。 我 们 要 关注 的 是 这 些 响 应 对 
象 。 啊 应 可 以 是 简单 的 重 定 同 ， 没 有 主体 内 容 ， 也 可 以 是 复杂 的 内 容 ， 
如 在 线 商 店 的 目录 页 面 ， 它 使 用 HTML 模板 泻 染 ， 列 出 多 个 货品 ， 而 且 
有 购买 按钮 和 详情 页 面 链 接 。 


起 初 ，Django 提供 的 是 一 系列 函数 ， 这 叫 通 用 视图 ， 实 现 第 见 的 用 例 。 
例如 ， 很 多 网 站 都 需要 展示 搜索 结果 ， 里 面包 含 很 多 项 目 ， 分 成 多 页 ， 
而 且 各 个 项 目 会 链接 到 详细 信息 页 面 。 在 Django 中 ， 这 种 需求 使 用 列 
表 视 图 和 详情 视图 实现 ， 前 者 用 于 泻 染 搜索 结果 ， 后 者 用 于 生成 各 个 项 
目的 详情 页 面 。 


然而 ， 最 初 的 通用 视图 是 函数 ， 不 能 扩展 。 如 果 需 求 与 列表 视图 相似 但 
不 完全 一 样 ， 那 么 不 得 不 自己 从 头 实现 。 


Django 1.3 引入 了 基于 类 的 视图 ， 而 且 还 通过 基 类 、 混 入 和 拿 来 即 用 的 
具体 类 提供 了 一 些 通用 视图 类 。 这 些 基 类 和 混入 在 
django.views.generic ff) base 模块 里 ， 如 图 12-4 所 示 。 在 这 张 
图 中 ， 位 于 顶部 的 两 个 类 ，View 和 TemplateResponseMixin， 人 负责 
SCA AY LAF 


和 在 Classy Class-Based Views 网 站 Chttp://cebv.co.uk) 中 可 以 深 
入 研究 这 些 类 ， 你 可 以 轻松 地 浏览 各 个 视图 类 、 查 看 它们 的 全 部 方 
GDR. Am MAA CUI) 、 碍 看 图 表 、 浏 览 文 档 ， 以 及 
跳 转 到 GitHub 中 的 源码 

(https://github.com/django/django/tree/master/django/views/generic) 。 
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图 12-4: django.views.generic.base 模块 的 UML 类 图 


View 是 所 有 视图 〈 可 能 是 个 抽象 基 类 ) 的 基 类 ， 提 供 核心 功能 ， 如 
dispatch 方法 。 这 个 方法 委托 具体 子 类 实现 的 处 理 方法 Chandler) ， 
如 get. head. post 等 ， 处 理 不 同 的 HTTP 动词 。10RedirectView 类 
只 继承 View， 可 以 看 到 ， 它 实现 了 get、head、post 等 方法 。 


Django 程序 员 知 道 ，as_view 类 方法 是 View 接口 最 为 重要 的 部 分 ， 不 过 它 与 这 里 讨论 的 话 
日 所 ` 
题 无 关 。 


View 的 具体 子 类 应 该 实现 处 理 方法 ， 但 它们 为 什么 不 在 View 接口 中 
Ne? 原因 是 : 子 类 只 需 实现 它们 想 文 持 的 处 理 方法 。TemplateView 只 


用 于 显示 内 容 ， 因 此 它 只 实现 了 get 方法 。 如 果 把 HTTP POST 请 求 发 
给 TemplateView， 经 继承 的 View.dispatch 方法 检查 ， 它 没有 post 
处 理 方法 ， 因 此 会 返回 HTTP 405 Method Not Allowed (不 允许 使 用 
的 方法 ) 响 应。 


| 了 如果 深 入 了 解 设计 模式 ， 你 会 发 现 Django 的 分 派 机 制 是 动态 版 模板 方法 模式 
Chttps://en. wikipedia.org/wiki/Template method pattern) 。 之 所 以 说 是 动态 的 ， 是 因为 View 类 
不 强制 子 类 实现 所 有 处 理 方 法 ， 而 是 让 dispatch 方法 在 运行 时 检查 有 没有 针对 特定 请 求 的 具 
体 处 理 方 法 。 


TemplateResponseMixin 提供 的 功能 只 针对 需要 使 用 模板 的 视图 。 例 
如 ，RedirectView 没有 主体 内 容 ， 因 此 它 不 需要 模板 ， 也 就 没有 继承 
这 个 混入 。TemplateResponseMixin W TemplateView 和 
django.views.generic 包 中 定义 的 使 用 模板 泻 染 的 其 他 视图 (例如 
ListView、DetailView， 等 等 ) 提供 行为 。 图 12-5 是 
django.views.generic. list 模块 和 部 分 base 模块 的 图 解 。 
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图 12-5: django.views.generic.list 模块 的 UML 类 图 ; 图 中 属 
于 base 模块 的 三 个 类 没有 详细 说 明 (参见 图 12-4) ; ListView 类 
没有 方法 和 属性 ， 它 是 一 个 聚合 类 


对 Django 用 户 来 说 ， 在 图 12-5 中 ， 最 重要 的 类 是 ListView。 这 是 一 
个 聚合 类 ， 不 含 任何 代码 (定义 体 中 只 有 一 个 文档 字符 

$) 。ListView 实例 有 个 object_list 属性 ， 模 板 会 迭代 它 显示 页 面 
的 内 容 ， 通 音 是 数据 库 碍 询 返 回 的 多 个 对 象 。 生 成 这 个 可 迭代 对 象 列 表 
的 相关 功能 都 由 MultipleobjectMixin 提供 。 这 个 混入 还 提供 了 复杂 
的 分 页 逻辑 ， 即 在 一 页 中 显示 部 分 结果 ， 并 提供 指 癌 其 他 页 面 的 链接 。 


假设 你 想 创建 一 个 使 用 模板 泻 染 的 视图 ， 但 是 会 生成 一 组 ISON 格式 的 
对 象 ， 此 时 用 得 到 BaseListView 类 。 这 个 类 提供 了 易于 使 用 的 扩展 
点 ， 把 View 和 MultipleobjectMixin 的 功能 整合 在 一 起 ， 避 免 了 模 
板 机 制 的 开销 。 

与 Tkinter 相 比 ，Django 基于 类 的 视图 API 是 多 重 继承 更 好 的 示例 。 尤 
其 是 ，Django 的 混入 类 易于 理解 : 各 个 混入 的 目的 明确 ， 而 且 名 称 的 后 
级 都 是 . . .Mixin。 

Django 用 户 还 没有 完全 拥抱 基于 类 的 视图 。 很 多 人 确实 在 使 用 ， 但 是 用 
法 有 限 ， 把 它们 当成 黑 盒 ;需要 新 功能 时 ， 很 多 Django 程序 员 依 然 选 
EER TASER AS, MARAE H EN A 


学 习 基于 类 的 视图 和 根据 应 用 需求 扩展 它们 确实 需要 一 些 时 间 ， 不 过 我 
觉得 这 是 值得 的 ， 基 于 类 的 视图 能 避免 大 量 样板 代码 ， 便 于 重用 ， 还 能 
增进 团队 交流 一 一 例如 ， 为 模板 和 传 给 模板 上 下 文 的 变量 定义 标准 的 名 
称 。 基 于 类 的 视图 把 Django 视图 带 到 了 正轨 上 。 


我 们 对 多 重 继 承 和 混入 类 的 讨论 到 此 结束 。 


12.6 ”本章 小 结 


本 章 对 继承 的 讨论 先 从 子 类 化 内 置 类 型 引起 的 问题 谈 起 : 内 置 类 型 的 原 
生 方法 使 用 C 语言 实现 ， 不 会 调用 子 类 中 禾 盖 的 方法 ， 不 过 有 极 少数 例 
外 。 因 此 ， 需 要 定制 1ist、dict 或 str 类 型 时 ， 子 类 化 
UserList、UserDict 或 UserString 更 简单 。 这 些 类 在 
collections 模块 Chttps://docs.python.org/3/library/collections.html) 中 
定义 ， 它 们 其 实 是 对 内 置 类 型 的 包装 ， 会 把 操作 委托 给 内 置 类 型 一 一 这 
是 标准 库 中 优先 选择 组 合 而 不 使 用 继承 的 三 个 例子 。 如 果 所 需 的 行为 与 
内 置 类 型 区 别 很 大 ， 或 许 更 容易 的 做 法 是 ， 子 类 化 collections.abc 
模块 (https://docs.python.org/3/library/collections.abc.html〉 中 相应 的 抽象 
其 类 ， 然 后 自己 实现 。 


本 章 余 下 的 内 容 着 重 探 讨 了 多 重 继承 这 把 双 刃 剑 。 首 先 ， 我 们 说 明了 
_mro _ 类 属性 中 强 藏 的 方法 解析 顺序 ， 有 了 这 一 机 制 ， 继 承 方法 的 名 
称 不 再 会 发 生 冲突 。 我 们 还 提 到 ， 内 置 的 super() 函数 会 按照 
__mro _ 属性 给 出 的 顺序 调用 超 类 的 方法 。 然 后 ， 我 们 分 析 了 Python 
标准 库 中 GUI 工具 包 Tkinter 对 多 重 继承 的 运用 。Tkinter 不 能 代表 当前 
的 最 佳 实 践 ， 因 此 我 们 讨论 了 处 理 多 重 继承 的 一 些 方式 ， 例 如 谨慎 使 用 
混入 类 ， 以 及 借助 组 合 模 式 彻底 避免 使 用 多 重 继承 。 指 出 Tkinter 对 多 
重 继承 的 使 用 已 经 到 了 小 用 的 程度 后 ， 我 们 在 最 后 一 节 分 析 了 Django 
了 解 了 它们 的 核心 层次 结构 。 我 谢 得 这 更 好 地 利用 了 混 


Lennart Regebro〔 一 位 经 验 非 常 丰富 的 Python 程序 员 ， 也 是 本 书 的 技术 
审 校 之 一 ) 发 现 Django 通过 混入 设计 的 视图 层次 结构 有 点 混乱 。 但 是 
他 又 写 道 : 


多 重 继承 的 危害 和 缺点 被 放大 了 。 我 从 来 不 沉 得 它 是 什么 大 问题 。 
总 之 ， 每 个 人 对 如 何 使 用 以 及 要 不 要 在 目 己 的 项 目 中 使 用 多 重 继承 都 有 


自己 的 观点 。 但 是 ， 我 们 往往 没 得 选择 ， 因 为 我 们 必须 使 用 的 框架 有 它 
们 上 自己 的 选择 。 


12.7 ”延伸 阅读 


使 用 抽象 基 类 时 ， 多 重 继 承 很 常见 ， 而 且 实 际 上 也 是 不 可 避免 的 ， 因 为 
最 基本 的 集合 抽象 其 类 (Sequence. Mapping M Set) 都 扩展 多 个 抽 
象 基 类 。collections .abc 的 源码 

(Lib/ collections abc.py, https://hg.python.org/cpython/file/3.4/Lib/ collect 
是 抽象 基 类 使 用 多 重 继承 的 范例 一 一 其 中 很 多 还 是 混入 类 。 


Raymond Hettinger 写 的 文章 “Python's super() considered 

super!” Chttps://rhettinger.wordpress.com/2011/05/26/super-considered- 
super/) ， 从 积极 的 角度 解说 了 Python 的 super 和 多 重 继承 的 运作 原 
理 。 这 篇 文章 是 对 James Knight 的 “Python's Super is nifty, but you can't use 
it”〈 以 前 题 为 "Python's Super Considered Harmful”, https://fuhm-net/super- 
harmful/) 一文 作 出 的 回应 。 


尽管 这 两 篇 文章 的 题目 中 提 到 了 内 置 的 super 函数 ， 但 它 不 是 真正 的 
问题 一 一 Python 3 中 的 super 函数 没有 Python 2 中 那么 令 人 讨厌 了 。 真 
正 的 问题 是 多 重 继承 ， 它 天 生 复 杂 ， 难 以 处 理 。Michele Simionato 不 再 
批评 这 一 点 ， 他 在 “Setting Multiple Inheritance Straight’— 3X 
(http://www.artima.com/weblogs/viewpost.jsp?thread=246488) 中 给 出 了 
解决 方案 : 他 实现 了 性 状 〈trait) ， 这 是 一 种 受 限 的 混入 ， 源 目 Selfi 
言 。Simionato 写 了 一 系列 具有 局 发 性 的 博客 文章 ， 对 Python 的 多 重 继 
承 进 行 了 探讨 ， 包 括 “The wonders of cooperative inheritance, or using 
super in Python 3”(http:/www.artima.comyweblogs/viewpostjsp? 
thread=281127) , “Mixins considered harmful”* 第 一 部 分 
Chttp://www.artima.com/weblogs/viewpost.jsp?thread=246341) 和 第 二 部 
分 Chttp://www.artima.com/weblogs/viewpost.jsp?thread=246483) ， 以 
及 “Things to Know About Python Super” 第 一 部 分 
(http://www.artima.com/weblogs/viewpost.jsp?thread=236275) 、 第 二 部 
分 (http://www.artima.com/weblogs/viewpost.jsp?thread=236278) 和 第 三 
部 分 Chttp://www.artima.com/weblogs/viewpost.jsp?thread=237121) 。 最 


早 的 文章 使 用 Python 2 的 super 句法 ， 不 过 依然 值得 一 读 。 


我 读 过 Grady Booch 写 的 《 面 癌 对 象 分 析 与 设计 〈 第 3 版 ) 》， 强 烈 推 
荐 给 你 ， 这 是 面 癌 对 象 思维 的 通用 入 门 书 ， 与 具体 的 编程 语言 无 关 。 很 


少 有 书 能 这 样 不 带 偏见 地 讨论 多 重 继承 。 


Kik 
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人 ， 多 数 时 候 (或 大 多 数 时 候 ) 也 是 在 编写 应 用 程序 。 编 写 应 用 程 
序 时 ， 我 们 通常 不 用 设计 类 的 层次 结构 。 我 们 至 多 会 编写 子 类 、 继 
承 抽象 基 类 或 框架 提供 的 其 他 类 。 作 为 应 用 程序 开发 者 ， 我 们 极 少 
需要 编写 作为 其 他 类 的 超 类 的 类 。 我 们 自己 编写 的 类 几乎 都 是 末端 
类 《 即 继承 树 的 叶子 ) 。 


如 果 作 为 应 用 程序 开发 者 ， 你 发 现 自己 在 构建 多 层 类 层次 结构 ， 可 
能 是 发 生 了 下 述 事件 中 的 一 个 或 多 个 。 


。 你 在 重新 发 明 轮 子 。 去 找 框架 或 库 ， 它 们 提供 的 组 件 可 以 在 应 
用 程序 中 重用 。 


。 你 使 用 的 框架 设计 不 民 。 去 寻找 准 代 品 。 
。 (KEW Kit. WES KISS 原则 。 
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这 些 事 情 你 可 能 都 会 过 到 :你 厌倦 了 ， 决 定 重 新 发 明 轮 子 ， 自 己 构 
建设 计 过 度 和 不 良 的 框 保 ， 因 此 不 得 不 编写 一 个 又 一 个 类 去 解决 鸡 
Ean iN. ARERR, BD EIA W EIR 


内 置 类 型 的 不 当 行 为 是 缺陷 还 是 特性 


内 置 的 dict、1ist 和 str 类 型 是 Python 的 底层 基础 ， 因 此 速度 必 
须 快 ， 与 这 些 内 置 类 型 有 关 的 任何 性 能 问题 几乎 都 会 对 其 他 所 有 代 
码 产生 重大 影响 。 于 是 ，CPython 走 了 捷径 ， 故 意 让 内 置 类 型 的 方 
法 行为 不 当 ， 即 不 调用 被 子 类 履 盖 的 方法 。 解 决 这 一 困境 的 可 能 方 
式 之 一 是 ， 为 这 些 类 型 分 别提 供 两 种 实现 : 一 种 供 内 部 使 用 ， 为 解 
释 器 做 了 优化 ; 另 一 种 供 外 部 使 用 ， 便 于 扩展 。 


但 是 等 等 ， 我 们 已 经 拥有 这 些 了 : UserDict. UserList 和 
UserString 虽然 没有 内 置 类 型 的 速度 快 ， 但 是 易于 扩展 。CPython 
采用 的 这 种 务实 方式 意味 着 ， 我 们 也 要 在 自己 的 应 用 程序 中 使 用 做 
了 优化 但 是 难以 子 类 化 的 实现 。 这 是 合理 的 ， 因 为 我 们 每 天 都 使 用 
dict. list 和 str， 但 是 很 少 需要 定制 映射 、 列 表 或 字符 串 。 我 
们 只 需 知 道 其 中 涉及 的 取舍。 


其 他 语言 对 继承 的 支持 


“面向 对 象 " 这 个 术语 是 Alan Kay 发 明 的 ， 而 Smalltalk 只 支持 单 继 
承 ， 不 过 有 些 派生 版 以 不 同 的 方式 文 持 多 重 继 承 ， 例 如 现代 的 
Squeak 和 Smalltalk 方言 Pharo 支持 性 状 (trait) 这 是 实现 混入 
类 的 语言 结构 ， 而 且 能 避免 多 重 继承 的 一 些 问 题 。 


C++ 是 第 一 门 实现 多 重 继承 的 流行 语言 ， 但 是 这 一 功能 被 滥用 了 ， 
因此 意欲 取代 C++ 的 Java 不 支持 多 重 继承 〈 即 没有 混入 类 ) 。 不 
过 ，Java 8 引入 了 默认 方法 ， 这 使 得 接口 与 C++ 和 Python 用 于 定义 
接口 的 抽象 类 十 分 相似 。 但 是 它们 之 间 有 个 关键 的 区 别 : Java 的 接 
口 没 有 状态 。Java 之 后 ， 使 用 最 广泛 的 JVM 语言 要 数 Scala 了 ， 而 
它 实 现 了 性 状 。 支 持 性 状 的 其 他 语言 还 有 最 新 稳定 版 PHP 和 
o 以 及 正在 开发 的 Rust 和 Perl 6。 因 此 可 以 说 ， 性 状 是 目前 


Ruby 对 多 重 继承 的 态度 很 明确 : 对 其 不 支持 ， 但 是 引入 了 混入 。 
Ruby 类 的 定义 体 中 可 以 包含 模块 ， 这 样 模块 中 定义 的 方法 就 变 成 
了 类 实现 的 一 部 分 。 这 是 “纯粹 "的 混入 ， 不 涉及 继承 ， 因 此 Ruby 
混入 显然 不 会 影响 所 在 类 的 类 型 。 这 种 方式 凸显 了 混入 的 优点 ， 避 
Gi SARS Fi WL Ia 


最 近 广 受 瞩 目的 两 门 语言 一 一 Go 和 Julia 一 一 对 继承 的 支持 极其 有 
限 。Go 完全 不 支持 继承 ， 但 是 它 实现 的 接口 与 静态 鸭子 类 型 相似 
(详情 参见 第 11 章 的 “和 杂谈”) o Julia 回避 “类 ”(class) 这 个 术 
语 ， 只 接受 “类 型 ”(type) 。Julia 有 类 型 层次 结构 ， 但 是 子 类 型 不 
能 继承 结构 ， 只 能 继承 行为 ， 而 且 只 能 为 抽象 类 型 创建 子 类 型 。 此 
外 ，Julia 的 方法 使 用 多 重 分 派 ， 这 是 7.8.2 节 所 述 机 制 的 高 级 形 


TK 


B13 正确 重 载运 算 符 


有 些 事情 让 我 不 安 ， 比 如 运算 符 重 载 。 FOREN SCRE SAT ER, 
这 完全 是 个 人 选择 ， 因 为 我 见 过 太 多 C++ 程序 员 滥 用 它 。 


James Gosling 
Java 之 父 


1 摘自 “The C Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and James 
Gosling” —3C Chttp://www.gotw.ca/publications/c_family_interview.htm) 。 


E a deer ey aa 云 算 符 (如 + 和 ||) 或 
运算 符 ( 如 - 和 ~) 。 说 得 宽泛 一 些 ， 在 Python 中 ， 函 数 调 用 
Re 属性 访问 (. e ([] ) 也 是 运算 符 ， 不 过 本 

章 只 讨论 一 元 运 云 算 符 和 中 级 运算 符 


在 1.2.1 75, RATA Vector 类 简略 实现 了 几 个 运算 符 。 示 例 1-2 中 的 
”34 和 mul 方法 是 为 了 展示 如 何 使 用 特殊 方法 重 载运 算 符 
不 过 有 些小 问题 被 我 们 忽视 了 。 此 外 ， 在 示例 9-2 中 ， 我 们 定义 的 
Vector2d. eq _ 方法 认为 Vector(3，4) == [3, 4] 是 真 的 

(True) ， 这 可 能 并 不 合理 。 本 章 会 解决 这 些 问 题 。 
在 接 下 来 的 几 节 ， 我 们 将 讨论 : 

e Python 如 何 处 理 中 级 运算 符 中 不 同类 型 的 操作 数 

。 使 用 鸭子 类 型 或 显 式 类 型 检查 处 理 不 同类 型 的 操作 数 

。 中 级 运算 符 如 何 表 明 自 己 无 法 处 理 操 作 数 

。 众 多 比较 运算 符 (如 ==, >, <= E) 的 特殊 行为 


。 增 量 赋 值 运 算 符 (如 +=)〉 的 默认 处 理 方式 和 重 载 方式 


13.1 运算 符 重 载 基础 


在 某 些 圈子 中 ， 运 算 符 重 载 的 名 声 并 不 好 。 这 个 语言 特性 可 能 〈 已 经 ) 
被 滥用 ， 让 程序 员 困 惑 ， 导 致 缺陷 和 意料 之 外 的 性 能 瓶颈 。 但 是 ， 如 果 
使 用 得 当 ，API 会 变 得 好 用 ， 代 码 会 变 得 易于 阅读 。Python 施加 了 一 些 
限制 ， 做 好 了 灵活 性 、 可 用 性 和 安全 性 方面 的 平衡 


能 重 载 内 置 类 型 的 运算 符 
BE 新 建 运算 从， 只 能 重 载 现 有 的 


能 
些 运算 符 不 能 重 载 一 -is、and、or 和 not 不 过 位 运算 符 
| 和 ~ 可 以 ) 


第 10 章 已 经 为 Vector 定义 了 一 个 中 缀 运算 符 ， 即 ==， 这 个 运算 符 由 
eq “方法 支持 。 本 章 将 改进 ”eq _ 方法 的 实现 ， 更 好 地 处 理 不 是 
Vector 实例 的 操作 数 。 人 然而， 在 运算 符 重 载 方面 ， 众 多 比较 运算 符 

==, l=. >. <. os. <=) 是 特例 ， 因 此 我 们 首先 将 在 Vector FE 
载 四 个 算术 运算 符 : 一 元 运算 符 - 和 +， 以 及 中 组 运算 符 + 和 *。 


先 从 最 简单 的 入 手 : 一 元 运算 符 。 


。 不 
。 不 
。 某 
&、 


13.2 ”一 元 运算 符 
在 Python if 言 参 考 手册 中 ,，“6.$. Unary arithmetic and bitwise 
operauons” — 

2 (https: //docs.python. ice ep PN and- 
bitwise-operations) 列 出 了 三 元 运算 符 。 下 面 是 这 三 个 运算 符 和 对 
应 的 特殊 方法 。 


“ 现 有 版 本 是 6.6 节 ， 而 不 是 6.5 节 。 编者 注 


-( neg ) 
一 元 取 负 算术 运算 符 。 如 果 x 是 -2， 那 么 -x = 


Il 
N 
O 


+( pos ) 


一 元 取 正 算术 运算 符 。 通 常 ，x == +x, 但 也 有 一 些 例外 。 如 果 好 
奇 ， 请 阅读 “x 和 +x 何 时 不 相等 附注 栏 。 


~( invert ) 


对 整数 按 位 取 反 ， 定 义 为 ~x == -(x+1)。 如 果 x 是 2， 那 么 ~x 
== -3。 


Python 语言 参考 手册 中 的 “Data Model 一 

Chttps://docs.python.org/3/reference/datamodel.html#object. neg č ) 还 把 
内 置 的 abs(...) 函数 列 为 一 元 运算 符 。 它 对 应 的 特殊 方法 是 
”abs _ ， 从 1.2.1 节 起 已 经 见 过 多 次 。 


文 持 一 元 运算 符 很 简单 ， 只 需 实 现 相应 的 特殊 方法 。 这 些 特殊 方法 只 有 
一 个 参数 ，self。 然 后 ， EITI ema NER. 不 过 ， 要 遵守 运 
算 符 的 一 个 基本 规则 : 始终 返回 一 个 新 对 象 。 也 就 是 说 ， 不 能 修改 
self， 要 创建 并 返 aa 


对 - 和 + 来 说 ， 结 果 可 能 是 与 self 同属 一 类 的 实例 。 多 数 时候 ，+ 最 


好 返回 self WRIA. abs(...) 的 结果 应 该 是 一 个 标量 。 但 是 对 ~ 来 
说 ， 很 难说 什么 结果 是 合理 的 ， 因 为 可 能 不 是 处 理 整数 的 位 ， 例 如 在 
ORM 中 ，SQL WHERE 子 句 应 该 返回 反 集 。 


如 前 所 述 ， 我 们 将 为 第 10 EEK Vector 类 实现 几 个 新 运算 符 。 示 
例 13-1 列 出 了 示例 10-16 实现 的 _abs_ 方法 ， 以 及 新 增加 的 
_ neg 和 __pos_ 一 元 运算 符 方 法 。 


示例 13-1 vector_v6.py: 把 一 元 运算 符 - 和 + 添加 到 示例 10-16 
中 


def _abs (self): 
return math.sgqrt(sum(x * x for x in self)) 


def _neg (self): 


return Vector(-x for x in self) © 


def _pos_ (self): 
return Vector(self) @ 


@ 为 了 计算 -v， 构 建 一 个 新 Vector 实例 ， 把 self 的 每 个 分 量 都 取 
反 。 


O 为 了 计算 ftv， 构 建 一 个 新 Vector 实例 ， 传 入 self 的 各 个 分 量 。 


还 记得 吗 ? Vector 实例 是 可 迭代 的 对 象 ， 而 且 Vector._ init 的 
参数 是 一 个 可 迭代 对 象 ， 因 此 _neg 和 pos _ 的 实现 短小 精 悍 。 
我 们 不 打算 实现 invert_ 方法 ， 因 此 如 果 用 户 在 Vector XP] LX 
试 计算 ~v, Python 会 抛 出 TypeError， 而 且 输 出 明确 的 错误 消 


i, “bad operand type for unary ~: 'Vector'”. 


下 述 附 注 栏 讨论 一 个 奇怪 的 问题 ， 能 增长 你 的 + 一 元 运算 符 知 识 。 接 下 
来 的 重要 话题 是 : 重 载 向 量 加 法 运算 符 +( 见 13.3 节 ) 。 


x 和 +x 何 时 不 相等 
每 个 人 都 觉得 x == +x, MAZE Python 中 ， 几 乎 所 有 情况 下 都 是 


这 样 。 但 是 ， 我 在 标准 库 中 找到 两 例 x != +x 的 情况 。 


第 一 例 与 decimal.Decimal 类 有 关 。 如 果 x 是 Decimal 实例 ， 在 
算术 运算 的 上 下 文中 创建 ， 然 后 在 不 同 的 上 下 文中 计算 +x， 那 么 x 
l= +X。 例 如 ，x 所 在 的 上 下 文 使 用 某 个 精度 ， 而 计算 +x 时 ， 精 度 
变 了 ， 如 示例 13-2 Ara. 


示例 13-2 算术 运算 上 下 文 的 精度 变化 可 能 导致 x 不 等 于 +x 


>>> import decimal 

>>> ctx = decimal.getcontext() @ 

>>> ctx.prec = 40 @ 

>>> one_third = decimal.Decimal('1') / decimal.Decimal('3') © 
>>> one third @ 

Decimal ('@.3333333333333333333333333333333333333333') 


>>> one_third == +one_third 

True 

>>> ctx.prec = 28 QO 

>>> one_third == +one third @ 

False 

>>> +one third O 

Decimal ('@.3333333333333333333333333333') 


@ 获取 当前 全 局 算术 运算 的 上 下 文 引用 。 

O 把 算术 运算 上 下 文 的 精度 设 为 40。 

© 使 用 当前 精度 计算 1/3. 

O 碍 看 结果 ， 人 小数 点 后 有 40 个 数字 。 

@ one_third == +one third 返回 True. 


@ 把 精度 降低 为 28， 这 是 Python 3.4 为 Decimal 算术 运算 设 定 的 


@ HÆ, one_third == +one _ third 返回 False. 
@ 查看 tone_third， 小 数 点 后 有 28 个 数字 。 
虽然 每 个 fone_third 表达 式 都 会 使 用 one_third 的 值 创 建 一 个 


新 Decimal 实例 ， 但 是 会 使 用 当前 算术 运算 上 下 文 的 精度 。 


x l= +x 的 第 二 例 在 collections.Counter 的 文档 中 
Chttps://docs.python.org/3/library/collections.html#collections.Counter ) 。 

类 实现 了 几 个 算术 运算 符 ， 例 如 中 缀 运算 符 +， 作 用 是 把 两 个 

Counter 实例 的 计数 器 加 在 一 起 。 然 而 ， 从 实用 角度 出 

R, Counter 相 加 时 ， 负 值 和 零 值 计数 会 从 结 末 中 剔除 。 而 一 元 运 

算 符 + 等 同 于 加 上 一 个 空 Counter， 因 此 它 产 生 一 个 新 的 

Counter 且 仅 保留 大 于 零 的 计数 句 。 见 示例 13-3. 


示例 13-3 一 元 运算 符 + 得 到 一 个 新 Counter 实例 ， 但 是 没 
有 有 零 值 和 负 值 计数 器 3 


>>> ct = Counter('abracadabra’' ) 
>>> ct 

Counter({'a': 5, ‘r': 2, 'b': 
>>> ct['r'] -3 


>>> ct['d'] = 6 

>>> ct 

Counter({'a': 5, 'b': 
>>> +ct 

Counter({'a': 5, 'b': 


下 面 回 归 正 题 。 


3 应 该 在 最 前 面 加 一 行 ，>>> from collections import Counter。- ”编者 注 


13.3 重 载 回 量 加 法 运算 符 + 


` Vector 2 REIRE, 按照 “Data Model” 一 章 中 的 “3.3.6. 
Emulating container types” — “11 

Chttps://docs.python.org/3/reference/datamodel.html#emulating- 
container-types) 所 说 ， 序 列 应 该 支持 + 运算 符 〈 用 于 拼接 ) ， 以 及 
* 运算 符 《 用 于 重复 复制 ) n 我 们 将 使 用 同 量 数学 运 自 实现 
+ 和 * BEAT. KA 做 更 难 一 ， 但 是 对 Vector 类 型 来 说 更 有 意 
Se 


两 个 欧 几 里 得 向 量 加 在 一 起 得 到 的 是 一 个 新 问 量 ， 它 的 各 个 分 量 是 两 个 
回 量 中 相应 的 分 量 之 和 。 比 如 说 : 


>>> v1 = Vector([3, 4, 5]) 
>>> v2 = Vector([6, 7, 8]) 
>>> v1 + v2 


Vector([9.0, 11.0, 13.0]) 
>>> v1 + v2 == Vector([3+6, 4+7, 5+8]) 
True 


如 果 尝 试 把 两 个 不 同 长 度 的 Vector 实例 加 在 一 起 会 怎样 ? 此 时 可 以 抛 
出 错误 ， 但 是 根据 实际 运用 情况 《例如 信息 检索 ) ， 最 好 使 用 零 填充 较 
短 的 那个 向 量 。 我 们 想 要 的 效果 是 这 样 : 


>>> v1 = Vector([3, 4, 5, 6]) 
>>> v3 = Vector([1, 2]) 


>>> v1 + v3 
Vector([4.0, 6.0, 5.0, 6.0]) 


确定 这 些 基本 的 要 求 之 后 ，_ add__ 方法 的 实现 短小 精 悍 ， 如 示例 13-4 
所 示 。 


示例 13-4 Vector. add 方法, 第 1 版 


# 在 Vector 类 中 定义 


def _add (self, other): 


pairs = itertools.zip longest(self, other, fillvalue=0.0) # © 
return Vector(a + b for a, b in pairs) # @ 


Q pairs 是 个 生成 器 ， 它 会 生成 (a，b) 形式 的 元 组 ， 其 中 a 来 自 
self, b 来 自 other。 如 果 self 和 other 的 长 度 不 同 ， 使 用 
fillvalue 填充 较 短 的 那个 可 和 迭代 对 象 。 


Vector 实例 ， 使 用 生成 器 表达 式 计 算 pairs 中 各 个 元 
系 的 和 。 


注意 ，_add “返回 一 个 新 Vector 实例 ， 而 没有 影响 self 或 
other。 


ing 

Bes SEEM FOIE SEAT AM BIS ETT ATT IE — FE AS BEE BER TE 
数 。 使 用 这 些 运 算 符 的 表达 式 期 每 结果 是 新 对 象 。 只 有 增 量 赋值 表 
达 式 可 能 会 修改 第 一 个 操作 数 (self) ， 参 见 13.6 市 。 


示例 13-4 中 的 实现 方式 可 以 把 Vector 加 到 Vector2d 上 ， 还 可 以 把 
Vector 加 到 元 组 或 任何 生成 数字 的 可 迭代 对 象 上 ， 如 示例 13-5 所 示 。 


示例 13-$ 第 1 版 Vector. add 方法 也 支持 Vector 之 外 的 对 
象 


>>> v1 = Vector([3, 4, 5]) 
>>> v1 + (10, 20, 30) 
Vector([13.0, 24.0, 35.0]) 


>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 

>>> v1 + v2d 

Vector([4.0, 6.0, 5.0]) 


示例 13-5 中 的 两 个 加 法 都 能 如 我 们 所 期 待 的 那样 计算 ， 这 是 因为 
add 使 用 了 zip_longest(...)， 它 能 处 理 任何 可 和 迭代 对 象 ， 而 且 
构建 新 Vector 实例 的 生成 器 表达 式 仅仅 是 把 zip_longest(...) 生成 


E (a + b) , Wea EHEM E a 7 KIBAR 


然而 ， 如 果 对 调 操作 数 〈 见 示例 13-6) ， 混 合 类 型 的 加 法 就 会 失败 。 


示例 13-6 如果 左 操 作 数 是 Vector 之 外 的 对 象 ， 第 一 版 
Vector. add _ 方法 无 法 处 理 


>>> v1 = Vector([3, 4, 5]) 
>>> (10, 20, 30) + v1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only concatenate tuple (not "Vector") to tuple 


>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 
>>> v2d + v1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for +: 'Vector2d' and 'Vector' 


为 了 文 持 涉 及 不 同类 型 的 运算 ，Python 为 中 绥 运 算 符 特殊 方法 提供 了 特 
ag 对 表达 式 a + b 来 说 ， 解 释 需 会 执行 以 下 几 步 操作 
CULT 13-1) 


(1) 如 果 a 有 __add _ 方法 ， 而 且 返 回 值 不 是 NotImplemented， 调 用 
a. _add (b)， 然 后 返回 结果 。 


(2) 如 果 a 没 有 __add 方法， 或 者 调用 _ add_ ”方法 返回 
NotImplemented， 检 查 b 有 没有 __radd_ Wk, MRA, MERE 
返回 NotImplemented， 调 用 b._radd_〈(a)， 然 后 返回 结果 。 


(3) 如 果 b 没 有 _ radd ”方法 ， 或 者 调用 __radd_ _ 方法 返回 
NotImplemented， 抛 出 TypeError， 并 在 错误 消息 中 指明 操作 数 类 型 
不 文 持 。 


获取 a.__add 
__(b) 的 结果 


获取 b.__radd 
(a) 的 结果 


抛 出 TypeError 


结果 是 
NotImple- 
mented[ 吗 ? 


结果 是 
Not Imple- 
mented? 


图 13-1: 使 用 _add M radd 计算 a + b 的 流程 图 


_radd 是 _add _ 的 “反射 ”(reflected) 版 本 或 “ 反 向 ”(reversed) 
版 本 。 我 喜欢 把 它 叫 作 “ 反 向 ”特殊 方法 。4 本 书 的 三 位 技术 审 校 ， 
Alex, Anna 和 Leo 告诉 我 ， 他 们 喜欢 称 之 为 “ 右 向 ”(right) 特殊 方法 ， 
因为 他 们 在 右 操 作 数 上 调用 。 不 管 你 喜欢 哪个 以 “天 "开头 的 单词 ， 
_radd 和 _ rsub_ 等 类 似 方法 中 的 “r” 就 是 这 个 意思 。 


| 4 这 两 个 术语 在 Python 文档 中 都 使 用 过 。“Data Mode 一 章 

| Chttps://docs.python.org/3/reference/datamodeLhtml) AA) A&“reflected” CRAT) ， 而 numbers 模 
块 文档 的 “9.1.2.2. Implementing the arithmetic operations” — “i 

| Chttps://docs.python. org/3/library/numbers.html#implementing-the-arithmetic-operations ) 用 的 

是 "forward”〈 正 向 ) 方法 和 "feverse”(〈 反 向 ) 方法 。 我 觉得 后 者 更 好 ， 因 为 “ 正 向 ”和 “ 反 向 ” 明 
| 确 指出 了 方向 ， 而 “反射 ”就 没 这 种 效果 。 


因此 ， 为 了 让 示例 13-6 中 的 混合 类 型 加 法 能 正确 计算 ， 我 们 要 实现 
Vector. radd 方法。 这 是 一 种 后 备 机 制 ， 如 果 左 操作 数 没有 实现 
add 方法， 或 者 实现 了 ， 但 是 返回 NotImplemented 表明 它 不 知 
道 如 何 处 理 右 操作 数 ， 那 么 Python 会 调用 __radd _ 方法 。 


别 把 NotImplemented 和 NotImplementedError 搞 混 了 。 
前 者 是 特殊 的 单 例 值 ， 如 果 中 绥 运 算 符 特殊 方法 不 能 处 理 给 定 的 操 
作 数 ， 那 么 要 把 它 返 回 (return) 给 解释 器 。 而 
NotImplementedError 是 一 种 异常 ， 抽 象 类 中 的 占 位 方法 把 它 抛 
出 (raise) , pele TX WI m o 


最 简 可 用 的 __radd__ 实现 如 示例 13-7 所 示 。 
示例 13-7 Vector. add 和 radd 方法 


# 在 Vector 类 中 定义 


def add (self, other): # © 
pairs = itertools.zip_longest(self, other, fillvalue=0.@) 
return Vector(a + b for a, b in pairs) 


def _radd_ (self, other): #@ 
return self + other 


四 add 方法 与 示例 13-4 中 一 样 ， 没 有 变化 ; 这 里 列 出 ， 是 因为 


_radd “要 用 它 。 
@@_radd 直接 委托 _add_ 


_radd__ 通常 就 这 么 简单 :直接 调用 适当 的 运算 符 ， 在 这 里 束 古 委托 
__add _。 任 何 可 交换 的 运算 符 部 能 这 么 做 。 处 理 数字 和 疝 量 时 ，+ 可 
以 交换 ， 但 是 拼接 序列 时 不 行 。 


示例 13-4 中 的 方法 可 以 处 理 Vector 对 象 或 任何 具有 数值 元 素 的 可 迭代 
对 象 ， 例 如 Vector2d 实例 、 整 数 元 组 或 浮 点 数 数组 。 但 是 ， 如 果 提 供 
IRAE, MWA add _ 束 无 法 处 理 ， 而 且 提 供 的 错误 消息 不 
是 很 有 用 ， 如 示例 13-8 所 示 。 


示例 13-8 Vector. add ”方法 的 操作 数 要 是 可 迭代 对 象 


>>> vl + 1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "vector_v6.py", line 328, in _add__ 
pairs = itertools.zip_longest(self, other, fillvalue=0.@) 
TypeError: zip_longest argument #2 must support iteration 


如 果 一 个 操作 数 是 可 迭代 对 象 ， 但 是 它 的 元 素 不 能 与 Vector 中 的 浮 点 
数 元 素 相 加 ， 给 出 的 消息 也 没什么 用 。 如 示例 13-9 所 示 。 


示例 13-9 Vector. add ”方法 的 操作 数 应 是 可 迭代 的 数值 对 象 


>>> v1 + 'ABC' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "vector_v6.py", line 329, in _add__ 
return Vector(a + b for a, b in pairs) 


File "vector_v6.py", line 243, in _init_ 
self. components = array(self.typecode, components) 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) 
TypeError: unsupported operand type(s) for +: ‘float’ and ‘str' 


示例 13-8 和 示例 13-9 Ha FR AY i) EC ARE EE I OR 

于 类 型 不 兼容 而 导致 运算 符 特殊 方法 无 法 返回 有 效 的 结果 ， 那 么 应 该 返 

E| NotImplemented， 而 不 是 抛 出 TypeError。 返 回 NotImplemented 

人 eee 的 类 型 还 有 机 会 执行 运算 ， 即 Python 会 尝试 调用 
可 方法 。 


为 了 遵守 鸭子 类 型 精神 ， 我 们 不 能 测试 other 操作 数 的 类 型 ， 或 者 它 
的 元 素 的 类 型 。 我 们 要 捕获 异常 ， 然 后 返回 NotImplemented。 如 果 解 
释 器 还 未 反 转 操作 数 ， 那 么 它 将 尝试 去 做 。 如 果 反 同方 法 返回 
NotImplemented， 那 么 Python ut} TypeError， 并 返回 一 个 标准 的 
错误 消息 ， 例 如 “unsupported operand type(s) for +: Vector 
and str”. 


示例 13-10 是 实现 Vector 加 法 的 特殊 方法 的 最 终 版 。 


示例 13-10 vector _v6.py: + ZAAD, SIME] vector_v5.py Cl 
示例 10-16) 中 


def _add (self, other): 
try: 
pairs = itertools.zip_longest(self, other, fillvalue=0.@) 
return Vector(a + b for a, b in pairs) 
except TypeError: 
return NotImplemented 


def _radd (self, other): 
return self + other 


Ben WR PAS BATA a, MAE SISA URAL 
对 TypeError 来 襄 ， 通 常 最 好 将 其 捕获 ， 然 后 返回 

NotImplemented。 这 样 ， 解 释 器 会 尝试 调用 反问 运 算 符 方法 ， 如 
als 对 调 之 后 ， 反 向 运算 符 方 法 可 能 会 正确 计 


至 此 ， 我 们 编写 了 __add 和 ”radd 方法， 安全 重 载 了 + 运算 
符 。 接 下 来 实现 另 一 个 中 级 运算 符 : *。 


13.4 ERER a AIT 


Vector ([1, 2, 3]) * x 是 什么 意思 ? 如 果 x 是 数字 ， 了 就 是 计算 标量 
AA (scalar product) ， 结 果 是 一 个 新 Vector 实例 ， 各 个 分 量 都 会 乘 以 
x- 一 这 也 叫 元 素 级 乘法 〈elementwise multiplication) o 


>>> v1 = Vector([1, 2, 3]) 
>>> v1 * 10 
Vector([10.0, 20.0, 30.0]) 


>>> 11 * v1 
Vector([11.0, 22.0, 33.0]) 


涉及 Vector 操作 数 的 积 还 有 一 种 ， 叫 两 个 同 量 的 点 积 (dot 

product) ; 如 果 把 一 个 同 量 看 作 1xV 和 抢 阵 ， 把 另 一 个 同 量 看 作 Nx1 FB 
Me, ABA te REEVE. NumPy 等 库 目 前 的 做 法 是 ， 不 重 载 这 两 种 意义 
的 *， 只 用 * 计算 标量 积 。 例 如 ， 在 NumPy 中 ， 点 积 使 用 
numpy.dot() mits. 5 


5 从 Python 3.5 起 ，@ 记号 可 以 用 作 中 绥 点 积 运算 符 。 详 情 参 见 “Python 3.5 新 引入 的 中 绥 运 算 符 
@” 附 注 栏 。 


回 到 标量 积 的 话题 。 我 们 依然 先 实现 最 人 简 可 用 的 mul 和 rmul _ 
方法 : 
# 在 Vector 类 中 定义 


def _mul_ (self, scalar): 
return Vector(n * scalar for n in self) 


def _rmul (self, scalar): 
return self * scalar 


这 两 个 方法 确实 可 用 ， 但 是 提供 不 兼容 的 操作 数 时 会 出 问题 。scalanr 
参数 的 值 要 是 数字 ， 与 浮 点 数 相 乘 得 到 的 积 是 万 一 个 译 点 数 〈 因 为 
Vector 类 在 内 部 使 用 浮 点 数 数组 ) 。 因 此 ， 不 能 使 用 复数 ， 但 可 以 是 


int, bool (int 的 子 类 ) ， 甚 至 fractions. Fraction 实例 等 标量 。 


我 们 可 以 像 示 例 13-10 那样 ， 采 用 鸭子 类 型 技术 ,在 __mul__ 方法 中 捕 
3k TypeError。 但 是 ， 这 个 问题 有 个 更 易于 理解 的 方式 ， 而 且 也 更 合 

H: 白 鹅 类 型 。 我 们 将 使 用 isinstance() 检查 scalar 的 类 型 ， 但 是 
不 硬 编码 具体 的 类 型 ， 而 是 检查 numbers .Real 抽象 基 类 。 这 个 抽象 基 
类 涵盖 了 我 们 所 需 的 全 部 类 型 ， 而 且 还 支持 以 后 声明 为 numbers .Real 
抽象 基 类 的 真实 子 类 或 虚拟 子 类 的 数值 类 型 。 示 例 13-11 展示 了 白 鹅 类 
eee 显 式 检查 抽象 类 型 。 完 整 的 代码 清单 参见 本 书 的 代码 


an 你 可 能 还 记得 11.6 Witt, decimal.Decimal 没有 把 自己 
注册 为 numbers .Real 的 虚拟 子 类 。 因 此 ，Vector 类 不 会 处 理 
decimal.Decimal 数字 。 


示例 13-11 vector v7.py: 增加 * 运算 符 方法 


from array import array 
import reprlib 

import math 

import functools 

import operator 

import itertools 

import numbers # @ 


class Vector: 
typecode = ‘d' 


def _ init__(self, components): 
self. components = array(self.typecode, components) 


# 排版 需要 ， 省 略 了 很 多 方法 
# 参见 https://github.com/fluentpython/example-code 中 的 vector_v7.py 


def _mul (self, scalar): 
if isinstance(scalar, numbers.Real): # © 
return Vector(n * scalar for n in self) 
else: # © 
return NotImplemented 


def _rmul (self, scalar): 
return self * scalar # © 


O 为 了 检查 类 型 ， 导 入 numbers 模块 。 


© 如 果 scalar 是 numbers.Real 某 个 子 类 的 实例 ， 用 分 量 的 乘积 创建 
一 个 新 Vector 实例 。 


否则 ， 返 回 NotImplemented, ik Python 尝试 在 scalar 操作 数 上 调 
用 rmul 方法。 


四 这 里 ，_rmul _ 方法 只 需 执行 self * scalar， 委 托 给 _mul __ 
方法 。 


有 了 示例 13-11 中 的 代码 之 后 ， 我 们 可 以 拿 Vector 实例 乘 以 常规 的 标 
量 值 和 不 那么 寻 第 的 数字 类 型 了 : 


>>> v1 = Vector([1.0, 2.0, 3.0]) 
>>> 14 * v1 

Vector([14.0, 28.0, 42.0]) 

>>> v1 * True 


Vector([1.0, 2.0, 3.0]) 

>>> from fractions import Fraction 

>>> v1 * Fraction(1, 3) 

Vector ([@.3333333333333333, 0.6666666666666666, 1.0]) 


通过 实现 + 和 *， 我 们 讲解 了 编写 中 绥 运 算 符 最 常用 的 模式 。+ 和 * 用 
的 技术 对 表 13-1 中 列 出 的 所 有 运算 符 者 适用 《〈 融 地 运算 符 在 13.6 节 讨 
论 ) 。 


表 13-1: 中 绥 运 算 符 方法 的 名 称 〈 就 地 运算 符 用 于 增 量 赋值 ， 比 较 
运算 符 在 表 13-2 中 ) 


+ __add__ __radd__ __iadd__ 加 法 或 拼接 


WARE R 


__floordiv__|__rfloordiv__|__ifloordiv__ 


ml 
Peer __rtruediv__ |__itruediv__ 


divmod() __rdivmod__ __idivmod__ 


__matmul__ __rmatmul__ __imatmul__ 


lshift | rlshift | ilshift 


__rshift__ __rrshift__ __irshift__ 


* pow 的 第 三 个 参数 modulo 是 可 选 的 :pow(a，b，modulo)， 直 接 调用 特殊 方法 时 也 支持 这 个 
参数 (如 a. pow_(b，modulo)) 。 


# Python 3.5 新 引入 的 。 


众多 比较 运算 符 也 是 一 类 中 绥 运 算 符 ， 但 是 规则 稍 有 不 同 。 我 们 将 在 下 
一 节 讨 论 众多 比较 运算 符 。 


下 述 附注 栏 介绍 了 Python 3.5 《写作 本 书 时 尚未 人 6) 引入 的 @ 运 算 
符 ， 选 读 。 


6 现 已 发 布 。 一 一 编者 注 
Python 3.5 新 引入 的 中 级 运算 符 @ 


Python 3.4 没有 为 点 积 提供 中 绥 运 算 符 。 不 过 ， 写 作 本 书 时 ，Python 
3.5 的 pre-alpha 版 实现 了 “PEP 465 — A dedicated infix operator for 
matrix multiplication” Chttps://www.python.org/dev/peps/pep- 

0465) ， 提 供 了 点 积 所 需 的 @ 记 号 〈 例 如 ，a @ b 是 a 和 b 的 点 
FR) 。@ 运算 符 由 特殊 方法 ”matmul 、_ rmatmul _ 和 
imatmul _ 提供 支持 ， 名 称 取 自 “matrix multiplication” (EREI 
法 ) 。 目 前 ， 标 准 库 还 没 用 到 这 些 方法 ， 但 是 Python 3.5 的 解释 器 
能 识别 ， 因 此 NumPy 团队 《以 及 我 们 自己 ) 可 以 在 用 户 定 义 的 类 
型 中 文 持 @ 运算 从。Python 解析 器 也 做 了 修改 ， 能 处 理 中 级 运 算 符 
@ (在 Python3.4 F, a @ b 是 一 种 句法 错误 ) 。 


为 了 体验 一 下 ， 我 从 源码 编译 了 Python 3.5， 然 后 为 Vector 实现 了 
点 积 运算 符 @， 还 做 了 测试 。 


下 面 是 我 做 的 最 简单 的 测试 : 


>>> va = Vector([1, 2, 3]) 

>>> vz = Vector([5, 6, 7]) 

>>> va @ vz == 38.0 # 1*5 + 2*6 + 3*7 
True 

>>> [10, 20, 30] @ vz 

380.0 

>>> va @ 3 

Traceback (most recent call last): 


TypeError: unsupported operand type(s) for @: ‘Vector’ and ‘i 


下 面 是 相应 特殊 方法 的 代码 : 


class Vector: 


# 排版 需要 ， 省 略 了 很 多 方法 


def _matmul__(self, other): 
try: 
return sum(a * b for a, b in zip(self, other) ) 
except TypeError: 
return NotImplemented 


def _rmatmul (self, other): 
return self @ other 


完整 的 源码 在 本 书 代 码 仓库 Chttps://github.com/fluentpython/example- 
code) 里 的 vector py3 5.py 文件 中 。 


记得 要 在 Python 3.5 中 测试 ， 否 则 会 导致 SyntaxError ! 


13.5 ”众多 比较 运算 人 符 


Python 解释 器 对 众多 比较 运算 符 (==、!=、>、<、>=、<=) 的 处 理 与 
前 文 类 似 ， 不 过 在 两 个 方面 有 重大 区 别 。 

。 正 向 和 反 向 调用 使 用 的 是 同一 系列 方法 。 这 方面 的 规则 如 表 13- 。 
所 示 。 例 如 ， 对 == 来 说 ， 正 向 和 反 向 调用 都 是 _eq_ Wik, R 
是 把 参数 对 调 了 ; MEW gt ”方法 调用 的 是 反 向 的 _1lt 
方法 ， 并 把 参数 对 调 。 


e 对 == 和 != 来 说 ， 如 果 反 回调 用 失败 ，Python 会 比较 对 象 的 ID, 
而 不 抛 出 TypeError。 


表 13-2: 众多 比较 运算 符 : 正 问 方法 返回 NotImplemented 的 话 ， 调 


用 反问 方法 
中 级 运 算 符 | 正 向 方法 调用 | 反 向 方法 调用 后 备 机 制 


返回 not (a == b) 


` Python 3 的 新 行为 


Python 2 之 后 的 比较 运算 符 后 备 机 制 都 变 了 。 对 于 __ne__， 现 在 
Python 3 返回 结果 是 对 ”eq__ 结果 的 取 反 。 对 于 排序 比较 运算 
符 ，Python 3 抛 出 TypeError， 并 把 错误 消息 设 为 'unorderable 
types: int() < tuple()'。 在 Python2 中 ， 这 些 比较 的 结果 很 
怪异 ， 会 考虑 对 象 的 类 型 和 ID， 而 且 无 规律 可 循 。 然 而 ， 比 较 整 
因此 此 时 抛 出 TypeError 是 这 门 语言 的 
= 


了 解 这 些 规 则 之 后 ， 我 们 来 分 析 并 改进 Vector. eq _ 方法 的 行为 。 
这 个 方法 在 vector_v5.py 中 是 这 样 定义 的 : 


class Vector: 


# 省 略 了 很 多 行 


def eq (self, other): 
return (len(self) == len(other) and 
all(a == b for a, b in zip(self, other))) 


这 个 方法 的 行为 如 示例 13-12 所 示 。 


示例 13-12 Vector 实例 与 Vector 实例、Vector2d 实例 和 元 组 
比较 


>>> va = Vector([1.0, 2.0, 3.0]) 

>>> vb = Vector(range(1, 4)) 

>>> va == vb #@ 

True 

>>> ve = Vector([1, 2]) 

>>> from vector2d_v3 import Vector2d 


>>> v2d = Vector2d(1, 2) 
>>> vc == v2d #@ 

True 

>>> t3 = (1, 2, 3) 

>> va == t3 #0 

True 


@ 两 个 具有 相同 数值 分 量 的 Vector 实例 是 相等 的 。 


四 如 果 Vector 实例 的 分 量 与 Vector2d 实例 的 分 量 都 相等 ， 那 么 两 个 
实例 相等 。 7 


7 实际 运行 时 会 抛 出 异常 : TypeError: object of type ‘Vector2d' has no len()， 因 为 
Vector2d 没有 实现 _len __ 特殊 方法 。 如 果 改 为 vc == set(v2d) 就 会 返回 True. 编 
者 注 


© Vector 实例 的 分 量 与 元 组 或 其 他 任何 可 迭代 对 象 的 元 素 相 等 ， 那 么 
对 象 也 相等 。 


示例 13-12 中 的 最 后 一 个 结果 可 能 不 是 很 理想 。 我 对 这 一 点 没有 强制 规 
则 ， 要 由 应 用 上 下 文 决定 。 不 过 , “Python 之 禅 ”说 道 : 


如 末 存 在 多 种 可 能 ， 不 要 猜测 。 
对 操作 数 过 上 度 宽 容 可 能 导致 令 人 惊讶 的 结果 ， 而 程序 员 讨 大 惊喜 。 


从 Python BARRER, RIED [1,2] == (1, 2) 的 结果 是 
False。 因 此 ， 我 们 要 保守 一 点 ， 做 些 类 型 检查 。 如 果 第 二 个 操作 数 是 
Vector 实例 (或 者 Vector 子 类 的 实例 ) » MARE eq _ 方法 的 
当前 逻辑 。 和 否则 ， 返 回 NotImplemented, ik Python 处 理 。 参 见 示例 
13-13. 


示例 13-13 vector v8.py: 改进 Vector 类 的 eq _ 方法 


def _eq_ (self, other): 
if isinstance(other, Vector): @ 
return (len(self) == len(other) and 


all(a == b for a, b in zip(self, other))) 


else: 
return NotImplemented @ 


@ 如 果 other 操作 数 是 Vector 实例 (或 者 Vector 子 类 的 实例 ) ， 那 
就 像 之 前 那样 比较 。 


否则 ， 返 回 NotImplemented. 


如 果 使 用 示例 13-13 中 的 新 版 Vector. eq ”方法 运行 示例 13-12 中 


的 测试 ， 得 到 的 结果 如 示例 13-14 所 示 。 
示例 13-14 与 示例 13-12 一 样 的 测试 : 最 后 一 个 结果 变 了 


>>> va = Vector([1.0, 2.0, 3.0]) 

>>> vb = Vector(range(1, 4)) 

>>> va == vb #@ 

True 

>>> vc = Vector([1, 2]) 

>>> from vector2d_v3 import Vector2d 


>>> v2d = Vector2d(1, 2) 
>>> ve == v2d # @ 


True 
>>> t3 = (1, 2, 3) 
>>> va == t3 # © 
False 


@ 结果 与 之 前 一 样 ， 与 预期 相符 。 
O 结果 与 之 前 一 样 ， 但 是 为 什么 呢 ? 稍 后 解释 。8 


8 这 次 不 抛 出 异常 ， 而 是 返回 True。 请 参阅 前 一 个 编者 注 。 一 编者 注 


结果 不 同 了 ， 这 才 是 我 们 想 要 的 。 但 是 为 什么 会 这 样 ? 请 往 下 
TA 


在 示例 13-14 中 的 三 个 结果 里 ， 第 一 个 没 变 ,但 是 后 两 个 变 了 ， 这 是 因 
为 示例 13-13 中 的 eq ”方法 返回 了 NotImplemented。Vector 实例 
与 Vector2d 实例 比较 时 ， 有 具体 步骤 如 下 。 


(1) 为 了 计算 vc == v2d, Python 调用 Vector. eq (vc, v2d). 


(2) Vector. eq (vc，v2d) 确认 ，v2d 不 是 Vector 实例 ， 因 此 
返回 NotImplemented. 


(3) Python 得 到 NotImplemented 结果 ， 尝 试 调用 
Vector2d. eq (v2d, vc). 


(4) Vector2d. eq (v2d，vc) 把 两 个 操作 数 都 变 成 元 组 ， 然 后 比 
较 ， 结 果 是 True (Vector2d. eq “方法 的 代码 在 示例 9-9 中 ) 。 


在 示例 13-14 F, Vector 实例 和 元 组 比较 时 ， 具 体 步 又 如 下 。 
() 为 了 计算 va == t3, Python 调用 Vector. _eq__ (va, t3). 


(2) 经 Vector. eq (va, t3) 确认 ，t3 不 是 Vector 实例 ， 因 此 返 
E| NotImplemented. 


(3) Python 得 到 NotImplemented 结果 ， 尝 试 调用 tuple. __eq_ (t3 
Va) 


(4) tuple. eq__(t3, va) 不 知道 Vector 是 什么 ， 因 此 返回 
NotImplemented. 


(5) 对 == 来 说 ， 如 果 反 向 调用 返回 NotImplemented, Python 会 比较 对 
象 的 ID， 作 最 后 一 搏 。 


那么 != 运算 符 呢 ?我 们 不 用 实现 它 ， 因 为 从 object 继承 的 _ne_ 方 
法 的 后 备 行为 满足 了 我 们 的 需求 : 定义 了 a 方法 ， 而 且 它 不 返回 
NotImplemented, ne 会 对 eq _ 返回 的 结果 取 反 。 


岂 就 是 说 ， 对 示例 13-14 HATS, t= 运算 从 比较 的 结果 是 
一 致 的 : 


>>> ve != v2d 


False 
>>> va != (1, 2, 3) 
True 


从 object 中 继承 的 _ne_ 方法， 运作 方式 与 下 述 代码 类 似 ， 不 过 原 
版 是 用 C 语言 实现 的 : ° 


9object. eq Fl object. _ne_ 的 逻辑 在 object_richcompare 函数 中 ， 位 于 CPython 
源码 的 Objects/typeobject.c 文件 
Chttps://hg.python.org/cpython/file/c0e311e010fc/Objects/typeobject.c) P. 


def ne (self, other): 
eq_result = self == other 


if eq_result is NotImplemented: 
return NotImplemented 


else: 
return not eq result 


By Python 3 文档 的 缺陷 1 


写作 本 书 时 ， 众 多 比较 方法 的 文档 
(https://docs.python.org/3/reference/datamodel. html) ii: “x==y 成 
立 不 代表 x1=y 不 成 立 。 据 此 ， 如 果 定 义 __eq__() WK, BHE 
义 __ne_() 方 法， 这 样 运算 符 的 行为 才能 符合 预期 。” 对 Python 2 
来 说 ， 确 实 是 这 样 。 但 对 Python 3 而 言 ， 这 不 是 好 的 建议 ， 因 为 从 
object 类 继承 的 ne _ 实现 够 用 了 ， 几 乎 不 用 重 载 。Guido 在 他 
写 的 “Whats New in Python 3.0” 一 文 
Chttps://docs.python.org/3/whatsnew/3.0.html#operators-and-special- 
methods) 中 说 明了 这 个 新 行为 ， 在 “Operators And Special 
Methods” 一 节 中 。 文 档 的 这 个 缺陷 在 issue 
4395 Chttp://bugs.python.org/issue4395) 中 做 了 记录 。 


了 1 这 个 缺陷 现在 已 经 修正 了 。 编者 注 


讨论 完 重要 的 中 组 运算 符 重 载 之 后 ， 下 面 换 一 类 运算 符 ; 增 量 赋值 运算 
符 。 


13.6 ” 增 量 赋值 运算 符 


Vector 类 已 经 支持 增 量 赋值 运算 符 += 和 *= 了 ， 如 示例 13-15 所 示 。 


示例 13-15 增 量 赋值 不 会 修改 不 可 变 目 标 ， 而 是 新 建 实例 ， 然 后 
重新 绑 定 


>>> v1 = Vector([1, 2, 3]) 
>>> v1 alias = v1 # Q 
>>> id(v1) #@ 
4302860128 

>>> v1 += Vector([4, 5, 6]) # 人 © 
>> vl #0 

Vector([5.0, 7.0, 9.0]) 
>>> id(v1) # © 
4302859904 

>>> v1 alias # O 
Vector([1.0, 2.0, 3.0]) 
>>> vl *= 11 #@ 

>> vl #0 

Vector([55.0, 77.0, 99.0]) 
>>> id(v1) 

4302858336 


@ 复制 一 份 ， 供 后 面 审 查 Vector([1，2，3]) HR. 

O 记 住 一 开始 绑 定 给 v1 的 Vector 实例 的 ID. 

O 增 量 加 法 运算 。 

O 结果 与 预期 相符 .…… 

@ .….. 但 是 创建 了 新 的 Vector 实例 。 

O 审查 v1_alias，, 确认 原来 的 Vector 实例 没 被 修改 。 

O 增 量 乘法 运算 。 

@ 同样 ， 结 果 与 预期 相符 ， 但 是 创建 了 新 的 Vector 实例 。 


如 果 一 个 类 没有 实现 表 13-1 列 出 的 就 地 运算 行 ， 增 量 赋值 运算 符 只 是 
语法 糖 : a t= b 的 作用 与 a = a + b 完全 一 样 。 对 不 可 变 类 型 来 说 ， 
这 是 预期 的 行为 ， 而 且 ， 如 果 定 义 了 __add__ WSN, ASH A 
外 的 代码 ，+= 就 能 使 用 。 


然而 ， 如 果实 现 了 束 地 运算 符 方 法 ， 例 如 __iadd ,计算 a += b 的 
结果 时 会 调用 就 地 运算 符 方 法 。 这 种 运算 符 的 名 称 表明 ， 它 们 会 束 地 修 
改 左 操作 数 ， 而 不 会 创建 新 对 象 作为 结果 。 


PRs 不 可 变 类 型 ， 如 Vector 类 ， 一 定 不 能 实现 就 地 特殊 方法 。 


这 是 明显 的 事实 ， 不 过 还 是 值得 提出 来 。 


为 了 展示 如 何 实 现 就 地 运算 符 ， 我 们 将 扩展 示例 11-12 中 的 BingoCage 
类 ,实现 add 和 iadd 方法 。 


我 们 把 子 类 命名 为 AddableBingoCage。 示 例 13-16 是 我 们 想 让 + 运算 
符 具 有 的 行为 。 


示例 13-16 使 用 + 运算 符 新 建 AddableBingoCage 实例 


>>> vowels = 'AEIOU' 

>>> globe = AddableBingoCage(vowels) @ 
>>> globe.inspect() 

('A', 'E', 'I', '0', 'U') 

>>> globe.pick() in vowels @ 

True 

>>> len(globe.inspect()) © 

4 


>>> globe2 = AddableBingoCage('XYZ') @ 
>>> globe3 = globe + globe2 

>>> len(globe3.inspect()) © 

7 

>>> void = globe + [10, 20] © 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for +: 'AddableBingoCage' and ‘list' 


@ 使 用 5 个 元 素 (vowels 中 的 各 个 字母 ) 创建 一 个 globe 实例 。 
O 从 中 取出 一 个 元 素 ， 确 认 它 在 vowels 中 。 


© 确认 globe 的 元 素数 量 减少 到 4 个 了 。 
O 创建 第 二 个 实例 ， 它 有 3 个 元 素 。 
O 把 前 两 个 实例 加 在 一 起 ， 创 建 第 3 个 实例 。 这 个 实例 有 7 个 元 素 。 


0 实例 无 法 与 列表 相 加 ， 抛 出 TypeError。 那 个 
错误 消息 是 “add ”方法 返回 Not Implemented 时 Python 解释 器 输出 
的 。 


AddableBingoCage 是 可 变 的 ， 实 现 _ iadd ”方法 后 的 行为 如 示例 
13-17 所 示 。 


示例 13-17 可 以 使 用 += 运算 符 载 入 现 有 的 AddableBingoCage 
实例 (接续 示例 13-16) 


>>> globe orig = globe © 
>>> len(globe.inspect()) @ 
4 

>>> globe += globe2 © 

>>> len(globe.inspect()) 

7 

>>> globe += ['M', 'N'] @ 
>>> len(globe.inspect()) 

9 

>>> globe is globe orig © 
True 

>>> globe += 1 © 

Traceback (most recent call last): 


TypeError: right operand in += must be '‘AddableBingoCage' or an iterable 
@ 复制 一 份 ， 供 后 面 检 查 对 象 的 标识 。 
四 现在 globe 有 4 个 元 素 。 


© AddableBingoCage 实例 可 以 从 同属 一 类 的 其 他 实例 那里 接受 元 


AIN o 


O += 的 右 操作 数 也 可 以 是 任何 可 迭代 对 象 。 


O 在 这 个 示例 中 ，globe 始终 指 代 globe_orig WR. 


@ AddableBingoCage 实例 不 能 与 非 可 迷 代 对 象 相 加 ， 错 误 消息 会 指 
明 原 因 。 


注意 ， 与 + 相 比 ，+= 运算 符 对 第 二 个 操作 数 更 宽容 。+ 运算 符 的 两 个 操 
作 数 必须 是 相同 类 型 (这 里 是 AddableBingoCage) ， 如 若 不 然 ， 结 
的 类 型 可 能 让 人 摸 不 着 头脑 。 而 += 的 情况 更 明确 ， 因 为 就 地 修改 左 操 
作 数 ， 所 以 结果 的 类 型 是 确定 的 。 


AI 通过 观察 内 置 1ist 类 型 的 工作 方式 ， 我 确定 了 要 对 + 和 += 
的 行为 做 什么 限制 。my_1ist + x 只 能 用 于 把 两 个 列表 加 到 一 
起 ， 而 my_list += X 可 以 使 用 右边 可 迭代 对 象 x 中 的 元 素 扩展 左 
边 的 列表 。1ist.extend() 的 行为 也 是 这 样 的 ， 它 的 参数 可 以 是 
任何 可 迭代 对 象 。 


我 们 明确 了 AddableBingoCage 的 行为 ， 下 面 来 看 实现 方式 ， 如 示例 
13-18 所 示 。 


示例 13-18 bingoaddable.py: AddableBingoCage 扩展 
BingoCage, “ff + fil += 


import itertools @ 


from tombola import Tombola 
from bingo import BingoCage 


class AddableBingoCage(BingoCage): @ 


def _add (self, other): 
if isinstance(other, Tombola): © 
return AddableBingoCage(self.inspect() + other.inspect()) @ 
else: 
return NotImplemented 


def _iadd (self, other): 
if isinstance(other, Tombola): 
other_iterable = other.inspect() © 
else: 


try: 
other_iterable = iter(other) 
except TypeError: (6) 
self_cls = type(self). name _ 
msg = "right operand in += must be {!r} or an iterable" 
raise TypeError(msg.format(self_cls)) 
self.load(other_iterable) 
return self O 


@ “PEP 8—Style Guide for Python 
Code” Chttps://www.python.org/dev/peps/pep-0008/#imports) 建议 ， 把 导 


入 标准 库 的 语句 放 在 导入 自己 编写 的 模块 之 前 。 

© AddableBingoCage 扩展 BingoCage。 

© _add__ 方法 的 第 二 个 操作 数 只 能 是 Tombola 实例 。 
@ 如果 other 是 Tombola 实例 ， 从 中 获取 元 素 。 


否则 ， 尝 试 使 用 other alae (tas. H 


ARH iter 函数 在 下 一 章 讨 论 。 这 里 ， 本 可 以 使 用 tuple(other)， 这 样 做 是 可 以 的 ， 但 
是 .10ad(...) 方法 迭代 参数 时 要 构建 大 量 元 组 ， 资 源 消耗 大 。 


O 如 末 宕 试 失败 ， 抛 出 异常 ， 并 且 告 知 用 户 该 怎么 做 。 如 来 可能， 错 
误 消息 应 该 明确 指导 用 户 怎 么 解决 问题 。 


O 如 果 能 执行 到 这 里 ， 把 other_iterable MA self. 
O 重要 提醒 : 增 量 赋值 特殊 方法 必须 返回 self. 


通过 示例 13-18 中 add 和 iadd _ 返回 结果 的 方式 可 以 总 结 出 就 
地 运算 符 的 原理 。 


__add__ 


调用 AddableBingoCage 构造 方法 构建 一 个 新 实例 ， 作 为 结果 返 
回 。 


__iadd__ 
把 修改 后 的 self 作为 结果 返回 。 


Ba, ANB 13-18 中 还 有 一 点 要 注音: 从 设计 上 

4, AddableBingoCage 不 用 定义 radd_ ”方法 ， 因 为 不 需要 。 如 果 
右 操 作 数 是 相同 类 型 ， 那 么 正 向 方法 add _ 会 处 理 ， 因 此 ，Python 
计算 a + bin, mas AddableBingoCage 实例 ， 而 b 不 是 ， 那 么 
会 返回 NotImplemented， 此 时 或 许可 以 让 b 所 属 的 类 接手 处 理 。 可 
是 ， 如 果 表 达 式 是 b + a， 而 b 不 是 AddableBingoCage 实例 ， 返 回 
了 NotImplemented, JKA Python 最 好 放弃 ， 抛 出 TypeError， 因 为 
无 法 处 理 b。 


A 一 般 来 说 ， 如 果 中 级 运算 符 的 正 同 方法 (如 __mul__) 只 处 
理 与 self 属于 同一 类 型 的 操作 数 ， 那 就 无 震 实 现 对 应 的 反 辐 方法 
aie 一 ) ， 因 为 按照 定义 ， 反 同方 法 是 为 了 处 理 类 型 不 同 
和 操作 数 。 


我 们 对 Python 运算 符 重 载 的 讨论 到 此 结 


13.7 本 章 小 结 


本 章 首 先 说 明了 Python 对 运算 符 重 载 施加 的 一 些 限 制 ， 禁止 重 载 内 置 类 
型 的 运算 符 ， 而 且 限于 重 载 现 有 的 运算 符 ， 不 过 有 几 个 例外 


Cis, and, or, not) 。 


随后 ， 本 章 讲解 了 如 何 重 载 一 元 运算 符 ， 并 实现 了 _ neg fil 

_ pos ”方法 。 接 着重 载 中 缀 运算 符 ， 首 先是 +， 它 由 add Wik 
提供 支持 。 我 们 得 知 ， 一 元 运算 符 和 中 级 运算 符 的 结果 应 该 是 新 对 象 ， 
并 且 绝 不 能 修改 操作 数 。 为 了 文 持 其 他 类 型 ， 我 们 返回 特殊 的 
NotImplemented 值 (不 是 异常 )， 让 解释 器 尝试 对 调 操 作 数 ， 然 后 调 
用 运算 符 的 反 向 特殊 方法 (如 __radd ) 。 图 13-1 中 的 流程 图 概述 
了 Python 处 理 中 级 运 算 符 的 算法 。 


如 果 操 作 数 的 类 型 不 同 ， 我 们 要 检测 出 不 能 处 理 的 操作 数 。 本 章 使 用 两 
种 方式 处 理 这 个 问题 : 一 种 是 鸭子 类 型 ， 直 接 答 试 执行 运算 ， 如 果 有 问 
题 ， 捕 获 TypeError Fei; 另 一 种 是 显 式 使 用 isinstance 测 

试 ， mul ”方法 就 是 这 么 做 的 。 这 两 种 方式 各 有 优 缺 点 : 了 鸭子 类 型 更 
灵活 ， 但 是 显 式 检查 更 能 预知 结果 。 如 果 选 择 使 用 isinstance， 要 小 
心 ， 不 能 测试 具体 类 ， 而 要 测试 numbers .Real 抽象 基 类 ， 例 如 
isinstance(scalar，numbers.Real)。 这 在 灵活 性 和 安全 性 之 间 做 
了 很 好 的 折 中 ， 因 为 当前 或 未 来 由 用 户 定义 的 类 型 可 以 声明 为 抽象 基 类 
的 真实 子 类 或 虚拟 子 类 ， 详 情 参 见 第 11 章 。 


接 下 来 的 话题 是 众多 比较 运算 符 。 我 们 通过 eq ”方法 实现 了 ==, Thi 
且 发 现 Python 在 object 基 类 中 通过 _ne “方法 为 !- 提供 了 便利 的 
实现 。Python 处 理 这 些 运 算 符 的 方式 与 >、<、>= M <= 稍 有 不 同 ， 具 体 
而 言 是 选择 反 向 方法 的 逻辑 不 同 ， 此 外 Python 还 会 特别 处 理 == 和 != 
的 后 备 机 制 : ATMA, A Python 会 比较 对 象 的 ID， 作 最后 一 


最 后 一 节 专门 讨论 了 增 量 赋值 运算 符 。 我 们 发 现 ，Python 处 理 这 种 运算 
符 的 方式 是 把 它们 当 作 常规 的 运算 符 加 上 赋值 操作 ， 即 a += b 其 实 会 
当成 a = a + b 处 理 。 这 样 会 始终 创建 新 对 象 ， 因 此 可 变 类 型 和 不 可 
变 类 型 都 能 用 。 对 可 变 对 象 来 说 ， 可 以 实现 就 地 特殊 方法 ， 例 如 支持 


+= 的 iadd 方法 ， 然 后 修改 左 操作 数 的 值 。 为 了 举例 说 明 ， 我 们 
把 不 可 变 的 Vector 类 放 到 一 边 ， 为 BingoCage 的 子 类 实现 了 += 运算 
符 ， 它 会 把 元 素 添 加 到 随机 选号 池 中 ， 这 与 内 置 的 1ist 类 型 把 += 当 
成 1ist.extend() 方法 的 快捷 方式 类 似 。 在 实现 的 过 程 中 ， 我 们 得 知 
在 可 接受 的 类 型 方面 ，+ 应 该 比 += 严格 。 对 序列 类 型 来 说 ，+ 通常 要 求 
2 类 型 ， 而 += 的 右 操作 数 往 往 可 以 是 任何 可 迭代 对 


13.8 延伸 陪读 


在 Python 编程 中 ， 运 算 符 重 载 经 常 使 用 isinstance 做 测试 。 一 般 来 

说 ， 库 应 该 利用 动态 类 型 (提高 灵活 性 ) ， 避 免 显 式 测试 类 型 ， 而 是 直 
接 尝 斌 操作， 然后 处 理 异常 ， 这 样 只 要 对 象 支 持 所 需 的 操作 即 可 ， 而 不 
必 一 定 是 某 种 类 型 。 但 是 ，Python 抽象 基 类 人 允许 一 种 更 为 严格 的 鸭子 类 
AY, Alex Martelli 称 之 为 “ 白 鹅 类 型 "*， 编 写 重 载 运算 符 的 代码 时 经 常 能 
用 到 。 因 此 ， 如 果 你 跳 过 了 第 11 章 ， 一 定 要 去 读 读 。 


运算 符 特殊 方法 的 主要 参考 资料 是 “Data Model” 一 章 
(https://docs.python.org/3/reference/datamodel.html)。 这 是 权威 资料 ， 不 
过 如 “Python 3 文档 的 缺陷 "所 述 ， 现 在 有 个 明显 的 缺陷 ， 瑟 即 建 议 “ 如 果 
定义 __eq_() 方法 ， 同 时 也 要 定义 __ne__() 方法 "。 实 际 上 ， 在 
Python 3 中 ， 继 承 自 object RAN ne 方法 能 满足 绝 大 多 数 需 求 ， 
因此 一 般 很 少 实现 ne _ 方法 。Python 标准 库 中 numbers 模块 文档 
的 “9.1.2.2. Implementing the arithmetic operations” 一 节 
Chttps://docs.python.org/3/library/numbers.html#implementing-the- 
arithmetic-operations) 也 值得 一 读 。 


2 这 个 缺陷 现在 已 经 修正 了 。 编者 注 


与 之 相关 的 一 个 技术 是 泛 函 数 ， 由 Python3 的 @singledispatch 装饰 
器 支持 (参见 7.8.2 节 ) 。 在 David Beazley 与 Brian K. Jones 的 著作 

(Python Cookbook ($E 3 fig) HCH) HA, “9.20 通过 函数 注解 来 实现 
MEER Ph Be EE Roe FRK) 通过 函数 注解 实现 了 
基于 类 型 的 分 派 。Martelli 、Ravenscrof 与 Ascher 的 《Python 
Cookbook (7% 2 fit) 中 文 版 》 一 书 有 个 有 趣 的 诀 罕 〈2.13 3, Erik Max 
Francis 提供 ) ， 展 示 了 如 何 重 载 << 运算 符 ， 在 Python 中 模仿 C++ 的 
iostream 句法 。 这 两 本 书 中 还 有 一 些 其 他 关于 运算 符 重 载 的 示例 ， 我 
只 提 了 两 个 重要 的 诀 短 。 


functools.total_ordering 函数 是 个 类 装饰 器 (Python 2.7 及 以 上 版 

本 可 用 ) ， 它 能 为 只 定义 了 几 个 比较 运算 符 的 类 上 自动 生成 全 部 比较 运算 

符 。 请 参阅 functools 模块 的 文档 
(https://docs.python.org/3/library/functools.html#functools.total_ordering) 。 


如 果 你 对 动态 类 型 语言 的 运算 符 方法 分 派 机 制 感 兴趣 ， 推 荐 阅读 两 篇 具 
有 重大 意义 的 论文 : Dan Ingalls (Smalltalk 团队 的 创始 成 员 ) 写 的 “A 
Simple Technique for Handling Multiple 

Polymorphism’ Chttps://wiki.illinois.edw//wiki/download/attachments/2734 16 
以 及 Kurt J. Hebel 与 Ralph Johnson (Johnson 是 《设计 模式 : 可 复 用 面向 
对 象 软件 的 基础 》 的 作者 之 一 ， 因 此 出 了 名 ) 合 写 的 “Arithmetic and 
Double Dispatching in Smalltalk- 

80” Chttps://wiki.illinois.edu//wiki/download/attachments/2734 1 6327/double- 
dispatch.pdf) 。 这 两 篇 论文 深入 分 析 了 动态 类 型 语言 (如 Smalltalk, 
Python 和 Ruby) 的 多 态 。 


Python 没有 使 用 这 两 篇 论文 中 所 述 的 双重 分 配 处 理 运算 符 。Python 使 用 
的 正 问 运算 和 从 和 反问 运算 符 更 便于 用 户 定 义 的 类 文 持 双重 分 派 ， 但 是 这 
种 方式 需要 解释 器 做 些 特殊 处 理 。 与 之 相 比 ， 经 典 的 双重 分 派 是 一 般 性 
的 技术 ，Python 和 任何 面向 对 象 语言 都 能 使 用 ， 而 且 不 止 适 用 于 中 级 运 
算 符 。 其 实 ，Ingalls、Hebel 和 Johnson 描述 双重 分 派 使 用 的 示例 完全 不 
同 。 


本 章 开 篇 引用 的 那 段 话 ， 以 及 “杂谈 ?中 引用 的 两 段 话 ， 均 出 自 “The C 
Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and 
James Gosling”— XC 

Chttp://www.gotw.ca/publications/c_ family interview.htm) , 刊登 于 Java 
Report, 5(7), July 2000 和 C++ Report, 12(7), July/August 2000 上 。 如 果 你 
对 编程 语言 设计 感 兴趣 ， 那 么 这 篇 文章 非常 值得 一 读 。 


杂谈 
运算 符 重 载 的 优 缺 点 


如 本 章 开 头 引 用 的 那 段 话 所 述 ，James Gosling 决定 不 让 Java 支持 

运算 符 重 载 。 在 那 次 访谈 中 (The C Family of Languages: Interview 
with Dennis Ritchie, Bjarne Stroustrup, and James 

Gosling’, http://www.gotw.ca/publications/c family interview.htm) , 


他 说 : 
大 约 20% 到 30% 的 人 觉得 运算 符 重 载 是 罪恶 之 源 ; 有些 人 对 


运算 符 的 重 载 营 怒 了 很 多 人 ， 因 为 他 们 使 用 + 做 列表 插入 ， 导 
致 生活 一 团 糟 。 这 类 问题 大 都 源 于 一 个 事实 : 世界 上 有 成 干 上 


万 个 运算 符 ， 但 是 只 有 少数 儿 个 适合 重 载 。 因 此 ， 我 们 要 挑 
选 ， 但 是 有 时 所 作 的 决定 违背 直觉 。 


Guido van Rossum 为 运算 符 重 载 采取 了 一 种 折 中 方式 : 不 放任 用 户 
随意 创建 运算 符 ， 如 <=> 或 :-)， 这 样 防 止 了 用 户 对 运算 符 的 异 想 
天 开 ， 而 且 能 让 Python 解析 器 保持 简单 。 此 外 ，Python 还 禁止 重 载 
内 置 类 型 的 运算 符 ， 这 个 限制 也 能 增强 可 读 性 和 可 预知 的 性 能 。 


Gosling 接着 说 道 : 


社区 中 约 有 10% 的 人 能 正确 地 使 用 和 真正 关心 运算 符 重 载 ， 
对 这 些 人 来 说 ， 运 算 符 重 载 是 极其 重要 的 。 这 部 分 人 几乎 专门 
处 理 数字 ， 在 这 一 领域 中 ， 为 了 符合 人 类 的 直觉 ， 表 示 法 特别 
重要 ， 因 为 他 们 进入 这 一 领域 时 ， 直 觉 中 已 经 知道 + 的 意思 ， 
他 们 知道 aa+b” 中 的 a 和 b 可 以 是 复数 、 和 矩阵 或 其 他 合理 的 东 
西 。 


表示 法 方面 的 问题 不 能 低 佑 。 下 面 以 金融 领域 为 例 说 明 。 在 Python 
中 ， 可 以 使 用 下 述 公 式 计算 复 利 : 


interest = principal * ((1 + rate) ** periods - 1) 


不 管 涉 及 什么 数字 类 型 ， 这 种 表示 法 都 成 立 。 因 此 ， 如 果 是 做 重要 
的 金融 工作 ， 你 要 确保 periods 是 整数 ，rate、interest 和 
principal 是 精确 的 数字 (Python 中 decimal.Decimal 类 的 实 
例 ) ， 这 样 上 述 公式 就 能 完好 运行 。 


但 是 在 Java 中 ， 如 果 把 float 换 成 精度 不 定 的 BigDecimal, Wè 
无 法 再 使 用 中 级 运算 符 ， 因 为 中 级 运算 符 只 支持 基本 类 型 。 在 Java 
中 ， 支 持 BigDecimal 数字 的 公式 要 这 样 写 : 


BigDecimal interest = principal.multiply(BigDecimal.ONE.add(rate) 


.pow(periods).subtract(BigDecimal.ONE)); 


显然 ， 使 用 中 绥 运 算 符 的 公式 更 易 读 ， 至 少 对 大 多 数 人 来 说 如 
iko B 为 了 让 中 绥 运 算 符 表示 法 支持 非 基本 类 型 ， 运 算 符 必须 能 重 


ko Python JERAS. HMA, STE ERN ee E 
这 些 年 在 科学 计算 领域 得 到 广泛 使 用 的 主要 原因 。 
当然 ， 语 言 不 文 持 运 算 符 重 载 也 有 好 处 。 对 极为 重视 性 能 和 安全 的 


低级 系统 语言 而 言 ， 这 无 疑 是 正确 的 决定 。 新 近 出 现 的 Go 语言 在 
这 方面 效仿 了 Java， 它 不 文 持 运算 符 重 载 。 


但 是 ， 重 载 的 运算 符 ， 如 果 使 用 得 当 ， 的 确 能 让 代码 更 易于 阅读 和 
编写 。 对 现代 的 高 级 语言 来 说 ， 这 是 个 好 功能 。 

HE 

如 果 仔细 看 示例 13-9 中 的 调用 跟踪 ， 会 发 现 生成 器 表达 式 做 惰性 


计算 的 证 据 。 示 例 13-19 再 次 列 出 那些 调用 跟踪 ， 不 过 加 上 了 一 些 
标注 。 


示例 13-19 与 示例 13-9 一 样 


>>> v1 + "ABC 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "vector_v6.py", line 329, in _add__ 
return Vector(a + b for a, b in pairs) # © 


File "vector_v6.py", line 243, in _init__ 
self. components = array(self.typecode, components) # @ 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) # © 
TypeError: unsupported operand type(s) for +: ‘float’ and 'str' 


@ Vector 调用 的 components 参数 是 一 个 生成 器 表达 式 。 这 一 步 
没 问题 。 

© components 生成 器 表达 式 传 给 array 构造 方法 。 在 这 里 ， 
Python 尝试 迭代 生成 器 表达 式 ， 因 此 会 计算 第 一 个 元 素 a + b。 这 
里 抛 出 了 TypeError。 

O 异常 回 上 冒 泡 ， 到 达 Vector 构造 方法 调用 ， 在 这 里 报告 出 来 。 


这 表明 ， 生 成 器 表达 式 在 最 后 时 刻 才 会 计算 ， 而 不 是 在 源码 中 定义 
它 的 位 置 计算 。 


与 之 相 比 ， 如 果 像 Vector([a + b for a, b in pairs]) 这 样 
调用 Vector 构造 方法 ， 那 么 这 里 就 会 抛 出 异常 ， 因 为 列表 推导 会 
尝试 构建 一 个 列表 ， 以 便 作 为 参数 传 给 Vector() 调用 。 此 时 ， 根 
本 不 会 触及 Vector._init _ 的 定义 体 。 


第 14 章 会 详细 讨论 生成 喜 表 达 式 ， 但 是 我 不 想 让 示例 中 偶然 出 现 
的 惰性 计算 迹象 漏 过 去 。 


8 我 的 朋友 Mario Domenech Goulart, CHICKEN Scheme 编译 器 〈httpywww.calLcc.org) 的 核心 
开发 者 ， 可 能 不 会 同意 这 一 说 法 。 


第 五 部 分 ”控制 流程 


第 14 草 AAT RR ARNA 
AY AE MG ait 


当 我 在 上 自己 的 程序 中 发 现 用 到 了 模式 ， 我 觉得 这 就 表明 某 个 地 方 出 
H So e 它 所 要 解决 的 问题 。 代 码 中 其 他 任 
何 外 加 的 形式 都 是 一 个 信号 ， 人 至 少 对 我 来 说 ) oe 
象 还 不 够 深 一 一 这 通常 意味 着 A 己 下 在 手动 完成 的 事情 ， 本 应 该 通 
过 写 代码 来 让 宏 的 扩展 自动 实现 。 


Paul Graham? 


Lisp 黑客 和 风险 投资 人 


1 摘自 一 篇 博客 文章 ，“Revenge of the Nerds”(“ 书 果子 的 复 
仇 ”，httpywww.paulgraham.conyicad.html) 。 


*Paul Graham 的 文集 《黑客 与 画家 : 来 自 计算 机 时 代 的 高 见 》 已 由 人 民 邮 电 出 版 社 出 版 ， 书 
号 : 978-7-115-32656-0。 编者 注 


友人 代 是 数据 处 理 的 基石 。 扫 描 内 存 中 放 不 下 的 数据 集 时 ， 我 们 要 找到 一 
种 惰性 获取 数据 项 的 方式 ， irm RIL SEG. OMIA aS 
模式 (Iterator pattern) . AH PLAY Python 8S ze Ue) A IK aS ek 
的 ， 这 样 就 避免 了 自己 手动 去 实现 。 


j Lisp (Paul Graham 最 喜欢 的 语言 ) 不 同 ，Python 没有 宏 ， 因 此 为 了 
FHA HIE aS ESN, 需要 改动 语 言 本 身 。 为 此 ，Python 2.2 (2001 年 ) 

加 入 了 yield 关键 字 。3 这 个 关键 字 用 于 构建 生成 器 (generator) ， 其 
作用 与 迭代 器 一 样 。 


3Python 2.2 的 用 户 可 以 使 用 from future import generators 指令 获取 yield 关键 
字 ; 在 Python 2.3 中 ，yield 关键 字 默 认可 用 。 


和 所 有 生成 器 都 是 欠 代 器 ， 因 为 生成 喜 完 全 实现 了 从 代 融 接 
口 。 不 过 ， 根 据 《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 


EX, TEMAS Me a ces I AE oa A SP 8 PE 
Ro WA SERA BUT He ee He ht ZA Xl: ER RL 
列 中 的 数 有 无 穷 个 ， 在 一 个 集合 里 放 不 下 。 不 过 要 知道 ， 在 Python 
社区 中 ， 大 多 数 时 候 都 把 友 代 器 和 生成 器 视 作 同 一 概念 。 


在 Python 3 中 ， 生 成 器 有 广泛 的 用 途 。 现 在 ， 即 使 是 内 置 的 range() 
函数 也 返回 一 个 类 似 生成 器 的 对 象 ， 而 以 前 则 返回 完整 的 列表 。 如 果 一 
定 要 让 range() 函数 返回 列表 ， 那 么 必须 明确 指明 ( 例 

un, list(range(10@))) 。 


coe H, PARA ABA WIE. Æ Python 语言 内 部 ， 迭 代 器 用 于 
F: 


for 循环 

构建 和 扩展 集合 类 型 

逐 行 遍历 文本 文件 

列表 推导 、 字 典 推导 和 集合 推导 
元 组 拆 包 
调用 函数 时 ， 使 用 * 拆 包 实 参 
本 章 涵 新 以 下 话题 : 

。 语言 内 部 使 用 iter(...) 内 置 函数 处 理 可 迭代 对 象 的 方式 
。 如 何 使 用 Python 实现 经 典 的 迭代 器 模式 

。 详细 说 明生 成 器 函数 的 工作 原理 

。 如 何 使 用 生成 器 函数 或 生成 器 表达 式 代替 经 典 的 迭代 器 
。 如 何 使 用 标准 库 中 通用 的 生成 器 函数 

。 如 何 使 用 yield from 语句 合并 生成 器 


。 ee 在 一 个 数据 库 转 换 工具 中 使 用 生成 器 函 数 处 理 大 型 数据 


。 为 什么 生成 占 和 协 程 看 似 相同 ， 实 则 差别 很 大 ， 不 能 泥 清 
首先 来 研究 iter(...) 函数 如 何 把 序列 变 得 可 以 迭代 。 


14.1 Sentence 类 第 1 版 : 单词 序列 

我 们 要 实现 一 个 Sentence 类 ， 以 此 打开 探索 可 迭代 对 象 的 旅程 。 我 们 
向 这 个 类 的 构造 方法 传 入 包含 一 些 文本 的 字符 串 ， 然 后 可 以 逐个 单词 先 
代 。 第 1 版 要 实现 序列 协议 ， 这 个 类 的 对 象 可 以 迭代 ， 因 为 所 有 序列 都 
TRR R ENAC, 不 过 现在 要 说 明 真 正 的 原因 。 
示例 14-1 定义 了 一 个 Sentence 类 ， 通 过 索引 从 文本 中 提取 单词 。 


示例 14-1 sentence.py: 把 句子 划分 为 单词 序列 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) © 


def getitem (self, index): 
return self.words[index] @ 


def _len_ (self): © 
return len(self.words) 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) © 


@ re. findall 函数 返回 一 个 字符 串 列 表 ， 里 面 的 元 素 是 正则 表达 式 的 
全 部 非 重 登 匹配 。 


© self.words 中 保存 的 是 .findall 函数 返回 的 结果 ， 因 此 直接 返 
指定 索引 位 上 的 单词 。 


O 为 了 完善 序列 协议 ， 我 们 实现 了 __len_ 方 法; 不过， 为 了 让 对 象 


HRR, BODES TWIN THE 


@ sie .repr 这 个 实用 函数 用 于 生成 大 型 数据 结构 的 简略 字符 串 表 
不 形式 。 


4 首次 使 用 reprlib 模块 是 在 10.2 W. 


默认 情况 下 ，reprlib.repr 函数 生成 的 字符 串 最 多 有 30 NF 
符 。Sentence 类 的 用 法 参见 示例 14-2 中 的 控制 台 会 话 。 


示例 14-2 测试 Sentence 实例 能 否 迭 代 


>>> S = Sentence('"The time has come," the Walrus said,') # © 
>>> S 
Sentence('"The time ha... Walrus said,') #@ 
>>> for word ins: # © 
print (word) 


>>> list(s) # © 
['The', 'time', 'has', 'come', 'the', 'Walrus', 'said'] 


@ 传 入 一 个 字符 串 ， 创 建 一 个 Sentence 实例 。 
repr _ 方法 的 输出 中 包含 reprlib.repr 方法 生成 的 


思 注意 ， 
eee O 


@ Sentence SEMA LAR, FAR UAW RA. 


ea DIBA, PTEI Sentence xf AH UH FH EIRA Hh AY TRA 
JAL, 


在 接 下 来 的 几 页 中 ， 我 们 还 要 开发 其 他 Sentence 类 ， 而 且 都 能 通过 示 
例 14-2 中 的 测试 。 不 过 ， 示 例 14-1 中 的 实现 与 其 他 实现 都 不 同 ， 因 为 
这 一 版 Sentence 类 也 是 序列 ， 可 以 按 索 引 获 取 单 词 : 


所 有 Python 程序 员 都 知道 ， 序 列 可 以 迭代 。 下 面 说 明 具 体 的 原因 。 
序列 可 以 迭代 的 原因 : iterek 2 
解释 器 需要 和 迭代 对 象 x 时 ， 会 自动 调用 iter(x). 

内 置 的 iter 函数 有 以 下 作用 。 


(1) 检查 对 象 是 否 实 现 了 __iter 方法， 如 果实 现 了 就 调用 它 ， 获 取 
一 个 迭代 器 。 


(2) 如 果 没 有 实现 iter 方法 ， 但 是 实现 了 getitem_ ”方法 ， 
Python 会 创建 一 个 迭代 器 ， 演 试 按 顺 序 〈( 从 索引 0 开始) 获取 元 素 。 


(3) 如 果 尝 斌 失败，Python 抛 出 TypeError 异 T 常 ， 通 常会 提示 “C object 
is not iterable” (C 对 象 不 可 迭代 ) ， 其 中 C 是 目标 对 象 所 属 的 类 。 


任何 Python 序列 都 可 迭代 的 原因 是 ， 它 们 都 实现 了 getitem_ _ 方 
法 。 其 实 ， 标 准 的 序列 也 都 实现 了 iter _ 方法 ， 因 此 你 也 应 该 这 么 
做 。 之 所 以 对 ”getitem _ 方法 做 特殊 处 理 ， 是 为 了 同 后 兼容 ， 而 未 
来 可 能 不 会 再 这 么 做 (不 过 ， 写 作 本 书 时 还 未 弃 用 ) 。 


11.2 节 提 到 过 ， pet (duck typing) 的 极端 形式 : 不 仅 要 实现 
特殊 的 iter ”方法 ， 还 要 实现 getitem Wk, MA 

_ getitem _ er 这 样 才 认为 对 象 
是 可 迭代 的 。 


FEA RERA! Cgoose-typing) 理论 中 ， 可 迭代 对 象 的 定义 简单 一 些 ， 不 过 
没 那 么 灵活 : MRM iter Fike, MAMUAM RA AIA 
的 。 此 时 ， 不 需要 创建 子 类 ， 也 不 用 注册 ， 因 为 abc. Iterable 类 实现 
J _ subclasshook_ 方法， 如 11.10 节 所 述 。 下 面 举 个 例子 : 


>>> class Foo: 
def _iter_ (self): 
pass 


>>> from collections import abc 


>>> issubclass(Foo, abc.Iterable) 
True 

>>> f = Foo() 

>>> isinstance(f, abc.Iterable) 
True 


不 过 要 注意 ， 虽 然 前 面 定义 的 Sentence 类 是 可 以 迭代 的 ， 但 却 无 法 通 
过 issubclass (Sentence, abc.Iterable) 测试 。 


和 从 Python 3.4 开始 ， 检 查 对 象 x PEMER, EIT EE: 
调用 iter(x) 函数 ， 如 果 不 可 迭代 ， 再 处 理 TypeError 异常 。 这 
比 使 用 isinstance(x, abc.Iterable) 更 准确 ， 因 为 iter(x) 
函数 会 考虑 到 遗留 的 ”getitem Wk, iii abc.Iterable 类 则 
ME Ee 


TERT BABI ENRE R Em IE RI he, HE EE AARAA 
RRT RE, Python 抛 出 的 异常 信息 很 明确 : TypeError: 'C' 
object is not iterable。 如 果 除 了 抛 出 TypeError 异常 之 外 还 要 
做 进一步 的 处 理 ， 可 以 使 用 try/except 块 ， 而 无 需 显 式 检查 。 如 果 要 
保存 对 象 ， 等 以 后 再 达 代 ， 或 许可 以 显 式 检查 ， 因 为 这 种 情况 可 能 需要 
尽早 捕获 错误 。 


下 一 节 详 述 可 迁 代 的 对 象 和 迭代 器 之 间 的 关系 。 


14.2 ”可 迭代 的 对 象 与 迭代 器 的 对 比 
从 14.1.1 节 的 解说 可 以 推 知 下 述 定 义 
AY TATRA MT Re 

使 用 iter 内 置 函数 可 以 获取 迭代 器 的 对 象 。 如 果 对 象 实现 了 能 返 
回 迭 代 器 的 ”iter 方法， 那么 对 象 束 是 可 和 迭代 的 。 序 列 都 可 以 迭 
AR; 实现 了 getitem 方法， 而 且 其 参数 是 从 零 开 始 的 索引 ， 这 种 
对 象 也 可 以 友 代 。 


ERAT BEY BY ICT RIE Cas ZAR AR: Python 从 可 和 迭代 的 对 象 
HR IE fai o 


下 面 是 一 个 简单 的 for 循环 ， ARDT. XE, RAPA "ABC" 
是 可 迭代 的 对 象 。 背 后 是 有 迭代 露 的 ， 只 不 过 我 们 看 不 到 : 


>>> S = 'ABC' 
>>> for char in s: 
print(char) 


如 果 没 有 for 语句 ， 不 得 不 使 用 while 循环 模拟 ， 要 像 下 面 这 样 写 : 


>>> s = 'ABC' 
>>> it = iter(s) # O 
>>> while True: 
try: 
print(next(it)) #@ 
except StopIteration: # © 


del it #0 
break # O 


@ EF TRE CHT eH EIA AS ito 

O 不 断 在 迭代 器 上 调用 next 函数 ， 获 取 下 一 个 字符 。 

O WRAL S, Ras SUH StopIteration 异常 。 

四 释放 对 it 的 引用 ， 即 废弃 迭代 器 对 象 。 

O 退出 循环 。 

StopIteration 异常 表明 迭代 器 到 头 了 。 了 Python 语言 内 部 会 处 理 for 
循环 和 其 他 和 欠 代 上 下 文 〈 如 列表 推导 、 元 组 拆 包 ， 等 等 ) 中 的 


StopIteration 异常 。 


标准 的 达 代 右 接 口 有 两 个 方法 。 


”next 


返回 下 一 个 可 用 的 元 素 ， 如 宁 没 有 元 素 了 ， 抛 出 StopIteration 


By AY 
FF If o 


__iter__ 


返回 self， 以 便 在 应 该 使 用 可 迭代 对 象 的 地 方 使 用 迭代 器 ， 例 如 
在 for 循环 中 。 


这 个 接口 在 collections.abc.Iterator 抽象 基 类 中 制定 。 这 个 类 定 
义 了 __next _ 抽象 方法 ， 而 且 继 承 自 Iterable 类 ; iter _ 抽象 
方法 则 在 Iterable 类 中 定义 。 如 图 14-1 所 示 。 


lterable 


构建 


def iter (self): 


return self 


图 14-1: Iterable 和 Iterator 抽象 基 类 。 以 斜体 显示 的 是 抽象 方 
法 。 上 具体 的 Iterable. iter _ 方法 应 该 返回 一 个 Iterator 实 
例 。 有 具体 的 Iterator 类 必须 实现 next__ Ù 

YE. Iterator. iter _ 方法 直接 返回 实例 本 身 


Iterator 抽象 基 类 实现 iter 方法 的 方式 是 返回 实例 本 身 
(return self) . iE, CER BERT IAAT RAH BY WE HARA o 
示例 14-3 是 abc. Iterator 类 的 源码 。 


示例 14-3 abc.Iterator 类 ， 摘 自 
Lib/ collections abc.py Chttps://hg.python.org/cpython/file/3.4/Lib/_ collect 
class Iterator(Iterable): 
_ slots _ 


@abstractmethod 
def next (self): 


"Return the next item from the iterator. When exhausted, raise StopIt 
raise StopIteration 


def _iter__ (self): 
return self 


@classmethod 
def _subclasshook (cls, C): 
if cls is Iterator: 
if (any("__next__" in B.__dict__ for B in C.__mro_) and 
any("__iter__" in B.__dict__ for B in C.__mro_)): 


return True 
return NotImplemented 


By 在 Python3 1, Iterator 抽象 基 类 定义 的 抽象 方法 是 
it. next ()， 而 在 Python 2 中 是 it.next()。 一 如 既往 ， 我 
们 应 该 避免 直接 调用 特殊 方法 ， 使 用 next(it) 即 可 ， 这 个 内 置 的 
函数 在 Python 2 和 Python 3 中 都 能 使 用 。 


在 Python 3.4 中 ， 
Lib/types.py Chttps://hg.python.org/cpython/file/3.4/Lib/types.py) 模块 的 源 
码 里 有 下 面 这 段 注释 : 


# Iterators in Python aren't a matter of type but of protocol. A large 
# and changing number of builtin types implement *some* flavor of 


# iterator. Don't check the type! Use hasattr to check for both 
# ”iter ”and " next " attributes instead. 


FUSE, imix abc. Iterator 抽象 基 类 中 subclasshook _ 方法 的 
at (参见 示例 14-3) 。 


~I 考虑 到 Lib/types.py 中 的 建议 ， 以 及 Lib/_collections_abc.py 中 
的 实现 逻辑 ， 检 查 对 象 x 是 否 为 迭代 堪 最 好 的 方式 是 调用 
isinstance(x, abc.Iterator). mT 

Iterator. _subclasshook__ 方法 ， 即使 对 象 x 所 属 的 类 不 是 
Iterator 类 的 真实 子 类 或 虚拟 子 类 ， 也 能 这 样 检查 。 


再 看 示例 14-1 中 定义 的 Sentence 类 ， 在 Python 控制 台中 能 清楚 地 看 
出 如 何 使 用 iter(...) 函数 构建 迭代 器 ， 以 及 如 何 使 用 next(...) K 
数 使 用 迭代 器 : 


Sentence('Pig and Pepper') # © 
iter(s3) #@ 
>>> it # doctest: +ELLIPSIS 


>>> S3 
>>> it 


<iterator object at Ox...> 
>>> next(it) # © 
"Pig' 


>>> next(it) 

"and' 

>>> next(it) 

' Pepper ' 

>>> next(it) # © 

Traceback (most recent call last): 


StopIteration 
>>> list(it) # O 


[] 
>>> list(iter(s3)) # O 
['Pig', 'and', 'Pepper'] 


O 创建 一 个 Sentence 实例 s3, AA 3 个 单词 。 
@ 从 s3 中 获取 迭代 器 。 
© 调用 next(it)， 获 取 下 一 个 单词 。 
@ 没有 单词 了 ， 因 此 迭代 器 抛 出 StopIteration 异常 。 
O FJALE, AREH T o 
O 如 果 想 再 次 迭代 ， 要 重新 构建 迭代 器 。 
KAARE m next 和 iter _ 两 个 方法 ， 所 以 除了 调用 
next() 方法 ， 以 及 捕获 StopIteration 异常 之 外 ， 没 有 办 法 检查 是 否 
Aw ANCA. UA, RAINE EIR IES. WRF UE, 
ABZ VFA iter(...), FEA ZAIRE ASA ATE RR. FE ATER 
器 本 身 没 用 ， 因 为 前 面 说 过 Iterator. iter _ 方法 的 实现 方式 是 返 
回 实例 本 身 ， 所 以 传 入 迭代 器 无 法 还 原 已 经 耗 尽 的 迭代 器 。 
根据 本 节 的 内 容 ， 可 以 得 出 迭代 器 的 定义 如 下 。 
IEA aS 

TARAS EIRP RR: 实现 了 无 参数 的 _next_ 方法， 返回 序列 


中 的 下 一 个 元 素 ; 如 果 没 有 元 素 了 ， 那 么 抛 出 StopIteration 异常 。 
Python 中 的 迭代 器 还 实现 了 iter ”方法 ， 因 此 迭代 器 也 可 以 迭代 。 


AAA BA iter(...) 函数 会 对 序列 做 特殊 处 理 ， 所 以 第 1 版 
Sentence 类 可 以 欠 代 。 接 下 来 要 实现 标准 的 可 迭代 协议 。 


14.3 Sentence 类 第 2 版 : 典型 的 迭代 器 


第 2 版 Sentence 类 根据 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 
书 给 出 的 模型 ， 实 现 典 型 的 迭代 器 设计 模式 。 注 意 ， 这 不 符合 Python 的 
习惯 做 法 ， 后 面 重 构 时 会 说 明 原 因 。 不 过 ， 通 过 这 一 版 能 明确 可 迭代 的 
集合 和 迭代 器 对 象 之 间 的 关系 。 


示例 14-4 中 定义 的 Sentence 类 可 以 迭代 ， 因 为 它 实现 了 特殊 的 

_iter 方法， 构建 并 返回 一 个 SentenceIterator 实例 。《 设 计 模 
- 可 复 用 面向 对 象 软件 的 基础 》 一 书 就 是 这 样 描述 迭代 器 设计 模式 
le 
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要 区 别 ， 以 及 二 者 之 间 的 联系 。 


示例 14-4 sentence_iter.py: 使 用 迭代 器 模式 实现 Sentence 类 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 
def init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter_(self): © 
return SentenceIterator(self.words) @ 
class SentenceIterator : 


def _ init__(self, words): 
self.words = words © 


self.index =0 @ 


def _ next__(self): 
try: 
word = self.words[self.index] © 
except IndexError: 
raise StopIteration() © 
self.index += 1 
return word © 


def _iter (self): © 
return self 


@ 与 前 一 版 相 比 ， 这 里 只 多 了 一 个 _ iter 方法。 这 一 版 没有 
_ getitem_ _ 方 法， 为 的 是 明确 表明 这 个 类 可 以 迭代 ， 因 为 实现 了 
_iter 方法。 


四 ATARI, iter 方法 实例 化 并 返回 一 个 迭代 器 。 
© SentenceIterator 实例 引用 单词 列表 。 

@ self.index 用 于 确定 下 一 个 要 获取 的 单词 。 

@ 获取 self.index 索引 位 上 的 单词 。 


O WER self.index 索引 位 上 没有 单词 ， 那 么 抛 出 StopIteration 异 
Ru, 
常 。 


@ 递增 self.index 的 值 。 

© 返回 单词 。 

四 实现 self. iter 方法 。 

示例 14-4 中 的 代码 能 通过 示例 14-2 中 的 测试 。 

注意 ， 对 这 个 示例 来 说 ， 其 实 没 必要 在 SentenceIterator 类 中 实现 


iter 方法， 不 过 这 么 做 是 对 的 ， 因 为 迭代 器 应 该 实现 “next __ 
和 ”iter ”两 个 方法 ， 而 且 这 么 做 能 让 迭代 器 通过 


issubclass(SentenceInterator, abc. Theratony 测试 。 如 果 让 
SentenceIterator 类 继承 abc.Iterator 类 ， 那 么 它 会 继承 
abc.Iterator. iter 这 个 具体 方法 。 


这 一 版 的 工作 量 IRA CABLES Python 程序 员 来 说 确实 如 此 》， 

意 ，SentenceIterator 类 的 大 多 数 代码 都 在 处 理 迭 代 器 的 内 部 状态 ， 
稍 后 会 说 明 如 何 简化 。 不 过 ， 在 此 之 前 我 们 先 稍微 离 题 ， 讨 论 一 个 看 似 
合理 实则 错误 的 实现 捷径 。 


把 Sentence 变 成 迭代 器 : 坏 主意 


Re SE YT PRT RAIS AS TZ se Le, JRA ae. 
AE, AERA RATS iter 方法， 每 次 都 实例 化 一 个 新 的 迭代 
器 ; 而 迭代 器 要 实现 __next_ 方法， 返回 单个 元 素 ， 此 外 还 要 实现 
_ iter 方法， 返回 迭代 器 本 刁 。 


AE, ARATE AIAR, (Ee AERA RS eI Aa o 


除了 __iter__ 方法 之 外 ， 你 可 能 还 想 在 Sentence 类 中 实现 
__next__ 方法 ， 让 Sentence 实例 既是 可 友 代 的 对 象 ， 也 是 自 寻 的 友 
代 器 。 可 是 ， 这 种 想法 非常 糟糕 。 根 据 有 大 量 Python 代码 审查 经 验 的 
Alex Martelli 所 说 ， 这 也 是 常见 的 反 模 式 。 


《设计 模式 : 可 复 用 面向 对 多 软件 的 基础 》 一 书 讲解 迭代 器 设计 模式 
时 ， 在 “适用 性 ”一 节 中 说 : 


*《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 第 172 页 。 


IR Can ol AY H R: 
。 访问 一 个 聚合 对 象 的 内 容 而 无 需 暴 露 它 的 内 部 表示 
© CERRAR AR P J 
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为 了 “支持 多 种 遍历 ”， 必 须 能 从 同一 个 可 迭代 的 实例 中 获取 多 个 独立 的 
迭代 占 ， 而 且 各 个 达 代 器 要 能 维护 自 届 的 内 部 状态 ， 因 此 这 一 模式 正确 
的 实现 方式 是 ， 每 次 调用 iter(my_iterable) 都 新 建 一 个 独立 的 迭代 
如 。 这 就 是 为 什么 这 个 示例 需要 定义 SentenceIterator 类 。 


可 和 迭代 的 对 象 一 定 不 能 是 自身 的 友 代 器 。 也 就 是 说 ， 可 迭代 的 对 象 
必须 实现 iter _ 方法， 但 不 能 实现 next__ 方法 。 

AFM, ARAMIZ BT WR. VERBS iter 方法 应 
ZRH HH. 


至 此 ， 我 们 演示 了 如 何 正确 地 实现 典型 的 迭代 器 模式 。 本 节 至 此 告 一 段 
落 ， 下 一 节 展 示 如 何 使 用 更 符合 Python 习惯 的 方式 实现 Sentence 类 。 


14.4 Sentence 类 第 3 版 生成 器 函数 


实现 相同 功能 ， 但 却 符合 Python 习惯 的 方式 是 ， 用 生成 器 函数 代替 
SentenceIterator 类 。 先 看 示例 14-$， 然 后 详细 说 明生 成 器 函数 。 


示例 14-5 sentence_gen.py: 使 用 生成 器 函数 实现 Sentence 类 
import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


def _repr (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter (self): 
for word in self.words: @ 
yield word @ 
return © 


# 完成 ! O 


@ iE self.words. 
© 产 出 当前 的 wordo 
O 这 个 return 语句 不 是 必要 的 ; 这 个 函数 可 以 直接 “落空 >”， 自 动 返 


回 。 不 管 有 没有 return 语句 ， 生 成 器 函数 都 不 会 抛 出 StopIteration 
异常 ， 而 是 在 生成 完全 部 值 之 后 会 直接 退出 。。 


6Alex Marte 贞 审查 这 段 代 码 时 建议 简化 这 个 方法 的 定义 体 ， 直 接 使 用 return 
iter(self.words)。 当 然 ， 他 是 对 的 ， 毕 竟 调 用 iter ”方法 得 到 的 就 是 迭代 器 。 不 过 ， 


这 里 我 用 的 是 for 循环 ， 而 且 用 到 了 yield 关键 字 ， 这 样 做 是 为 了 介绍 生成 器 函数 的 句法 。 
下 一 节 会 详细 说 明 。 


O 不 用 再 单独 定义 一 个 迭代 器 类 ! 


我 们 又 使 用 一 种 不 同 的 方式 实现 了 Sentence 类 ， 而 且 也 能 通过 示例 
14-2 中 的 测试 。 


在 示例 14-4 定义 的 Sentence 类 中 ， iter 方法 调用 
SentenceIterator 类 的 构造 方法 创建 一 个 迭代 器 并 将 其 返回 。 而 在 示 
例 14-5 中 ， 和 迭代 器 其 实 是 生成 器 对 象 ， 每 次 调用 iter _ 方法 都 会 
自动 创建 ， 因 为 这 里 的 ”iter _ 方法 是 生成 器 函数 。 


下 面 全 面 说 明生 成 器 函数 。 
FE Gait PK SOC YE JR E 
只 要 Python 函数 的 定义 体 中 有 yield 关键 字 ， 该 函数 就 是 生成 器 函 


数 。 调 用 生成 器 函数 时 ， 会 返回 一 个 生成 锅 对 象 。 也 就 是 说 ， 生 成 器 函 
数 是 生成 器 工厂 。 


普通 的 函数 与 生成 器 函数 在 句法 上 唯一 的 区 别 是 ， 在 后 者 的 
定义 体 中 有 yield 关键 字 。 有 些 人 认为 定义 生成 器 函数 应 该 使 用 
一 个 新 的 关键 字 ， 例 如 gen， 而 不 该 使 用 def， 但 是 Guido AE 
意 。 他 的 理由 参见 “PEP 255—Simple 
Generators” Chttps://www.python.org/dev/peps/pep-0255/) 。 J. 


7 有 了 时， 我 会 在 生成 器 函数 的 名 称 中 加 上 gen 前 级 或 后 级 ， 不 过 这 不 是 习惯 做 法 。 显 然 ， 如 果 
实现 的 是 迭代 器 ， 那 就 不 能 这 么 做 ， 因 为 所 需 的 特殊 方法 必须 命名 为 iter- 


下 面 以 一 个 特别 简单 的 函数 说 明生 成 器 的 行为 :3 


8 感谢 David Kwast 建议 使 用 这 个 示例 。 


>>> def gen 123(): #@ 
yield1 #@ 
yield 2 


yield 3 


>>> gen_123 # doctest: +ELLIPSIS 
<function gen_123 at 0x...> # 

>>> gen_123() # doctest: +ELLIPSIS 
<generator object gen 123 at @x...> #@ 
>>> for i in gen 123(): # © 

print(i) 


NB. 


Ww 


>>> g = gen 123() # © 
>>> next(g) # Q 
1 


>>> next(g) 
2 
>>> next(g) 
3 


>>> next(g) #0 
Traceback (most recent call last): 


StopIteration 


@ 只 要 Python 函数 中 包含 关键 字 yie1d， 该 函数 就 是 生成 器 函数 。 


O 生成 器 函数 的 定义 体 中 通常 都 有 循环 ， 不 过 这 不 是 必要 条 件 ;， 这 里 
我 重复 使 用 3 次 yield. 


© 仔细 看 ，gen_123 是 函数 对 象 。 

O 但 是 调用 时 ，gen_123() 返回 一 个 生成 器 对 象 。 

@ 生成 器 是 迭代 器 ， 会 生成 传 给 yield 关键 字 的 表达 式 的 值 。 

O 为 了 仔细 检查 ， 我 们 把 生成 器 对 象 赋值 给 go 

O 因为 g 是 迭代 器 ， 所 以 调用 next(g) 会 获取 yield 生成 的 下 一 个 元 


AIN o 


O 生成 器 函数 的 定义 体 执 行 完毕 后 ， 生 成 器 对 象 会 抛 出 


StopIteration 异常 。 


生成 器 函数 会 创建 一 个 生成 器 对 象 ， 包 装 生 成 器 函数 的 定义 体 。 把 生成 
器 传 给 next(...) 函数 时 ， 生 成 器 函数 会 向 前 ， 执 行 函数 定义 体 中 的 
下 一 个 yield 语句 ， 返 回 产 出 的 值 ， 并 在 函数 定义 体 的 当前 位 置 暂 
停 。 最终， 函数 的 定义 体 返 回 时 ， 外 层 的 生成 器 对 象 会 殷 出 
StopIteration 异常 一 一 这 一 点 与 迭代 器 协议 一 致 。 
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有 助 于 理解 生成 器 。 注 意 ， 我 说 的 是 产 出 或 生成 值 。 如 果 说 生成 
器 “返回 ” 值 ， 就 会 让 人 难以 理解 。 函 数 返 回 值 ;， 调用 生成 器 函数 返 
回 生成 器 ; 生成 器 产 出 或 生成 值 。 生 成 器 不 会 以 稼 规 的 方式 “ 返 
HPR: 生成 器 函数 定义 体 中 的 return 语句 会 触发 生成 堪 对 象 抛 
出 StopIteration 异常 。” 


?在 Python 3.3 之 前 ， 如 果 生 成 器 函数 中 的 return 语句 有 返回 值 ， 那 么 会 报错 。 现 在 可 以 这 么 
做 ， 不 过 return 语句 仍 会 导致 StopIteration 异常 抛 出 。 调 用 方 可 以 从 异常 对 象 中 获取 返 
回 值 。 可 是 ， 只 有 把 生成 器 函数 当成 协 程 使 用 时 ， 这 么 做 才 有 意义 ， 详 情 参 见 16.6 节 。 


示例 14-6 使 用 For 循环 更 清楚 地 说 明了 生成 器 函数 定义 体 的 执行 过 


程 。 


示例 14-6 运行 时 打印 消 轧 的 生成 器 函数 


>>> def gen AB(): # © 
print('start') 
yield 'A' © 
print('continue' 
yield 'B' © 
print('end.') (4) 
© 
(6) 


>>> for c in gen_AB(): # 
print('-->', c) # 


continue © 
-->B O 
end. @ 
>>> @ 


O 定义 生成 费 函 数 的 方式 与 普通 的 函数 无 异 ， 只 不 过 要 使 用 yield X 


键 字 。 


© 在 for 循环 中 第 一 次 隐 式 调用 next() 函数 时 (序号 @) ， 会 打印 
'start'， 然 后 停 在 第 一 个 yield 语句 ， 生 成 值 'A'。 


© 在 for 循环 中 第 二 次 隐 式 调用 next() 函数 时 ， 会 打印 
'continue'， 然 后 俘 在 第 二 个 yield 语句 ， 生 成 值 'B'。 


O 第 三 次 调用 next() 函数 时 ， 会 打印 "end.'， 然 后 到 达 函 数 定义 体 
的 末尾 ， 导 致 生成 器 对 象 抛 出 StopIteration 异常 。 


OZAN, for 机 制 的 作用 与 g = iter(gen_AB()) 一 样 ， 用 于 获取 
生成 器 对 象 ， 然 后 每 次 迭代 时 调用 next (g) . 


O 循环 块 打印 --> 和 next(g) 返回 的 值 。 但 是 ， 生 成 器 函数 中 的 
print 函数 输出 结果 之 后 才 会 看 到 这 个 输出 。 


@ 'start' 是 生成 器 函数 定义 体 中 print('start') 输出 的 结果 。 


O 生成 器 函数 定义 体 中 的 yield 'A' 语句 会 生成 值 A， 提 供给 for 循 
环 使 用 ， 而 A 会 赋值 给 变量 c， 最 终 输出 --> A. 


© 第 二 次 调用 next(g)， 继 续 迭 代 ， 生 成 器 函数 定义 体 中 的 代码 由 
yield 'A' 前 进 到 yield 'B'. SA continue 是 由 生成 器 函数 定义 
体 中 的 第 二 个 print 函数 输出 的 。 


M yield 'B' 语句 生成 值 B， 提 供给 for 循环 使 用 ， 而 B 会 赋值 给 变 
量 c， 所 以 循环 打印 出 --> B。 


O 第 三 次 调用 next(it)， 继 续 迭 代 ， 前 进 到 生成 器 函数 的 末尾 。 文 本 
end. 是 由 生成 器 函数 定义 体 中 的 第 三 个 print 函数 输出 的 。 到 达 生 成 
器 函数 定义 体 的 末尾 时 ， 生 成 嚣 对象 扫 出 StopIteration 异常 。for 
机 制 会 捕获 异常 ， 因 此 循环 终止 时 没有 报错 。 


@ 现在 ， 希 望 你 已 经 知道 示例 14-5 Sentence. iter _ 方法 的 作 
用 了 : _ iter ”方法 是 生成 堪 函数 ， 调 用 时 会 构建 一 个 实现 了 人 迭代 喜 
接口 的 生成 器 对 象 ， 因 此 不 用 再 定义 SentenceIterator 类 了 。 


这 一 版 Sentence 类 比 前 一 版 简短 多 了 ， 但 是 还 不 够 懒惰 。 如 今 ， 人 们 
认为 惰性 是 好 的 特质 ， 人 至 少 在 编程 语言 和 API 中 是 如 此 。 情 性 实现 是 指 
尽 可 能 延 后 生成 值 。 这 样 做 能 节省 内 存 ， 而 且 或 许 还 可 以 避免 做 无 用 的 
处 理 。 


下 一 节 以 这 种 惰性 方式 定义 Sentence 类 。 


14.5 Sentence 类 第 4 版 : 惰性 实现 


设计 Iterator 接口 时 考虑 到 了 惰性 : next(my_iterator) 一 次 生成 
= TTS HE Jac SC tt» 其 实 ， 惰 性 求 值 〈lazy evaluation) 和 
及 早 求 值 (eager evaluation) 是 编程 语 >My 从 方面 的 技术 术语 。 


目前 实现 的 几 版 Sentence 类 都 不 具有 惰性 ， 因 为 ”init ”方法 急迫 
地 构建 好 了 文本 中 的 单词 列表 ， 然后 将 其 绑 定 到 self.words 属性 上 。 
这 样 就 得 处 理 整 个 文本 ， 列 表 使 用 的 内 存量 可 能 与 文本 本 身 一 样 多 (或 
许 更 多 ， 这 取决 于 文本 中 有 多 少 非 单词 字符 ) 。 如 果 只 需 迭 代 前 几 个 单 
词 ， 大 多 数 工 作 都 是 白费 力气 。 


只 要 使 用 的 是 Python3， 思 索 铸 做 菜 件 事 有 没有 懒惰 的 方式 ， 答 案 通 种 
都 是 肯定 的 。 


re.finditer 函数 是 re.findall 函数 的 惰性 版 本 ， 返 回 的 不 是 列 

表 ， 而 是 一 个 生成 器 ， 按 需 生 成 re.MatchObject 实例 。 oe 
ae re. finditer Pei ALA ae 我 们 要 使 用 这 个 函数 让 第 

版 Sentence 类 变 得 懒惰 ， 即 只 在 需要 时 才 生 成 下 一 个 单词 。 ein 
例 14-7 所 示 。 


示例 14-7 sentence_gen2.py: 在 生成 器 函数 中 调用 re.finditer 
生成 器 函数 ， 实 现 Sentence 类 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def init__(self, text): 
self.text = text © 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter_ (self): 
for match in RE_WORD.finditer(self.text): @ 
yield match.group() © 


@ 不 再 需要 words 列表 。 


@ finditer 函数 构建 一 个 迭代 器 ， 包 含 self.text 中 匹配 RE_WORD 
的 单词 ， 产 出 MatchObject 实例 。 


® match.group() 方法 从 MatchObject 实例 中 提取 匹配 正则 表达 式 的 
具体 文本 。 


生成 器 函数 已 经 极 大 地 简化 了 代码 ， 但 是 使 用 生成 器 表达 式 甚 至 能 把 代 
码 变 得 更 简短 。 


14.6 Sentence 类 第 $ 版 ; 生成 器 表达 式 


We 如 前 面 的 Sentence 类 中 使 用 的 那个 〈 见 示例 14- 
， 可 以 替换 成 生成 器 表达 式 。 


生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 : 不 会 迫切 地 构建 列表 ， 
而 是 返回 一 个 生成 器 ， 按 需 惰性 生成 元 素 。 也 就 是 说 ， 如 有 条 列表 推导 是 
制造 列表 的 工厂 ， 那 么 生成 器 表达 式 就 是 制造 生成 右 的 工厂 。 

he 14-8 演示 了 一 个 简单 的 生成 费 表 达 式 ， 并 且 与 列表 推导 做 了 对 
Hes 


示例 14-8 人 先 在 列表 推导 中 使 用 gen_AB 生成 器 函数 ， 然 后 在 生成 
需 表 达 式 中 使 用 


>>> def gen AB(): # © 

ne print('start' ) 
yield ‘A’ 
print('continue' ) 
yield 'B' 
print('end.') 


>>> resi = [x*3 for x in gen AB()] #@ 
start 
continue 
end. 
>>> for i in resi: # © 
print('-->', i) 
--> AAA 
--> BBB 
>>> res2 = (x*3 for x in gen AB()) # @ 
>>> res2 # O 
<generator object <genexpr> at 0x10063c240> 
>>> for i in res2: # O 
print('-->', i) 


continue 
--> BBB 


end. 
Q gen_AB 函数 与 示例 14-6 中 的 一 样 。 


O 列表 推导 迫切 地 和 迭代 gen_AB() 函数 生成 的 生成 器 对 象 产 出 的 元 
A: 'A' 和 'B'。 注 意 ， 下 面 的 输出 是 start、continue 和 end.。 


O 这 个 for 循环 迭代 列表 推导 生成 的 res1 列表 。 


O 把 生成 器 表达 式 返 回 的 值 赋值 给 res2。 只 需 调 用 gen_AB() 函数 ， 
虽然 调用 时 会 返回 一 个 生成 器 ， 但 是 这 里 并 不 使 用 。 


O res2 是 一 个 生成 器 对 象 。 


O 只 有 for 循环 迭代 res2 时 ，gen_AB 函数 的 定义 体 才 会 真正 执 

行 。for 循环 每 次 迭代 时 会 隐 式 调用 next(res2)， 前 进 到 gen_AB PAI 
数 中 的 下 一 个 yield 语句 。 注 意 ，gen_AB 函数 的 输出 与 for 循环 中 
print 水 数 的 输出 夹杂 在 一 起 。 


可 以 看 出 ， 生 成 器 表达 式 会 产 出 生成 器 ， 因 此 可 以 使 用 生成 器 表达 式 进 
一 步 减少 Sentence 类 的 代码 ， 如 示例 14-9 所 示 。 


示例 14-9 ”sentence_genexp.py: 使 用 生成 器 表达 式 实现 Sentence 
类 


入 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def init__(self, text): 
self.text = text 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter (self): 
return (match.group() for match in RE_WORD.finditer(self.text)) 


| | 


与 示例 14-7 唯一 的 区 别 是 _ iter__ 方法 ， 这 里 不 是 生成 器 函数 了 
CRA yield) ， 而 是 使 用 生成 器 表达 式 构建 生成 器 ， 然 后 将 其 返回 。 
不 过 ， 最 终 的 效果 一 样 : 调用 __iter_ ”方法 会 得 到 一 个 生成 器 对 象 。 


生成 器 表达 式 是 语法 糖 ， 完全 可 以 亚 换 成 生成 器 函数 ， 不 过 有 时 使 用 生 
成 名 表达 式 更 便利 。 下 一 节 说 明生 成 器 表达 式 的 用 途 。 


14.7 WIREH AE a as ETA 


在 示例 10-16 中 ， 为 了 实现 Vector 类， 我 用 了 几 个 生成 器 表达 

st, eq 、_hash 、 abs 、 ETE, angles, format, _adı 
M _mul _ 方法 中 各 有 一 个 生成 器 表达 式 。 在 这 些 方法 中 使 用 列表 推 
导 也 行 ， 不 过 立即 返回 的 列表 要 使 用 更 多 的 内 存 。 


通过 示例 14-9 可 知 ， 生 成 需 表 达 式 是 创建 生成 器 的 简 少 句法， 这 样 无 
再 移 定 义 函 数 再 调用 。 不 过 ， 生 成 句 函 数 灵 活 得 多 ， 可 以 使 用 多 个 语句 
实现 复杂 的 逻辑 ， 也 可 以 作为 协 程 使 用 《参见 第 16 BE) 。 


遇 到 简单 的 情况 时 ， 可 以 使 用 生成 器 表达 式 ， 因 为 这 样 扫 一 眼 就 知道 代 
码 的 作用 ， 如 Vector 类 的 示例 所 示 。 


根据 我 的 经 验 ， 选 择 使 用 哪 种 句法 很 容易 判断 ， 如 果 生 成 器 表达 式 要 分 
成 多 行 写 ， 我 倾向 于 定义 生成 器 函数 ， 以 便 提高 可 读 性 。 此 外 ， 生 成 器 
函数 有 名 称 ， 因 此 可 以 重用 。 


A 句法 提示 


如 果 函 数 或 构造 方法 只 有 一 个 参数 ， 传 入 生成 器 表达 式 时 不 用 写 一 
对 调用 函数 的 括 写 ， 再 写 一 对 括号 围 住 生 成 器 表达 式 ， 只 写 一 对 插 
号 就 行 了 ， 如 示例 10-16 中 mul ”方法 对 Vector 构造 方法 的 调 
用 ， 转 摘 如 下 。 然 而 ， 如 果 生 成 器 表达 式 后 面 还 有 其 他 参数 ， 那么 
必须 使 用 括号 围 住 ， 否 则 会 抛 出 SyntaxeError 异常 : 


def _mul (self, scalar): 
if isinstance(scalar, numbers.Real): 
return Vector(n * scalar for n in self) 


else: 
return NotImplemented 


目前 所 见 的 Sentence 类 示例 说 明了 如 何 把 生成 器 当 作 上 典型 的 迭代 此 使 
用 ， 即 从 集合 中 获取 元 素 。 不 过 ， 生 成 器 也 可 用 于 生成 不 受 数据 源 限制 


的 值 。 下 一 节 会 举例 说 明 。 


148 “ 另 一 个 示例 : 等 差 数列 生成 器 


典型 的 迭代 器 模式 作用 很 简单 一 一 裔 历数 据 结构 。 不 过 ， 即 便 不 是 从 集 
合 中 获取 元 素 ， 而 是 获取 序列 中 即时 生成 的 下 一 个 值 时 ， 也 用 得 到 这 种 
基于 方法 的 标准 接口 。 例 如 ， 内 置 的 range 函数 用 于 生成 有 穷 整 数 等 

ZMA] (Arithmetic Progression, AP) , itertools.count 函数 用 于 生 
成 无 穷 等 差 数 列 。 


下 一 节 会 说 明 itertools .count 函数 ， 本 节 探 讨 如 何 生成 不 同 数字 类 
型 的 有 穷 等 差 数 列 。 


下 面 我 们 在 控制 台中 对 稍 后 实现 的 ArithmeticProgression 类 做 一 些 
测试 ， 如 示例 14-10 所 示 。 这 里 ， 构 造 方法 的 签名 是 
ArithmeticProgression(begin, step[, end]). range() 函数 与 
这 个 ArithmeticProgression 类 的 作用 类 似 ， 不 过 签名 是 
range(start，stop[，step])。 我 选择 使 用 不 同 的 签名 是 因为 ， 创 
PEE FE BAIN ARE AZ 〈step) ， 而 末 项 Cend) 是 可 选 的 。 我 还 
把 参数 的 名 称 由 start/stop 改 成 了 begin/end， 以 明确 表明 签名 不 
同 。 在 示例 14-10 里 的 每 个 测试 中 ， 我 都 调用 了 1ist() K% APA 
看 生成 的 值 。 


示例 14-10 演示 ArithmeticProgression 类 的 用 法 


>>> ap = ArithmeticProgression(6，1，3) 

>>> list(ap) 

[6, 1, 2] 

>>> ap = ArithmeticProgression(1, .5, 3) 

>>> list(ap) 

[1.0, 1.5, 2.0, 2.5] 

>>> ap = ArithmeticProgression(@, 1/3, 1) 

>>> list(ap) 

[0.0, @.3333333333333333, 0.6666666666666666 | 

>>> from fractions import Fraction 

>>> ap = ArithmeticProgression(@, Fraction(1, 3), 1) 
>>> list(ap) 

[Fraction(@, 1), Fraction(1, 3), Fraction(2, 3)] 

>>> from decimal import Decimal 

>>> ap = ArithmeticProgression(@, Decimal('.1'), .3) 


>>> list(ap) 
[Decimal('@.0'), Decimal('@.1'), Decimal('@.2')] 


注意 ， 在 得 到 的 等 差 数 列 中 ， 数 字 的 类 型 与 begin 或 step 的 类 型 一 
致 。 如 果 需 要 ， 会 根据 Python 算术 运算 的 规则 强制 转换 类 型 。 在 示例 
14-10 中 ， 有 int、float、Fraction 和 Decimal 数字 组 成 的 列表 。 


示例 14-11 列 出 的 是 ArithmeticProgression 类 的 实现 。 
示例 14-11 ArithmeticProgression 类 


class ArithmeticProgression: 


def _ init__(self, begin, step, end=None): © 
self.begin = begin 
self.step = step 
self.end = end # None -> 无 穷 数 列 


_ iter (self): 


result = type(self.begin + self.step)(self.begin) @ 
forever = self.end is None 
index = @ 


while forever or result < self.end: @ 
yield result © 
index += 1 
result = self.begin + self.step * index © 


QO init 方法 需要 两 个 参数 : begin 和 step. end 是 可 选 的 ， 如 
果 值 是 None， 那 么 生成 的 是 无 穷 数列 。 


© 这 一 行 把 self.begin 赋值 给 result， 不 过 会 先 强 制 转 换 成 前 面 的 
加 法 算式 得 到 的 类 型 。10 


python 2 内 置 了 coerce() 函数 ， 不 过 Python 3 没有 内 置 。 开 发 者 觉得 没 必要 内 置 ， 因 为 算 
术 运 算 符 会 隐 式 应 用 数值 强制 转换 规则 。 所 以 ， 为 了 让 数列 的 首 项 与 其 他 项 的 类 型 一 样 ， 我 能 
想到 最 好 的 方式 是 ， 先 做 加 法 运算 ， 然 后 使 用 计算 结果 的 类 型 强制 转换 生成 的 结果 。 我 在 
Python 邮件 列表 中 间 了 这 个 问题 ，Steven D'Aprano 给 出 了 妙 极 的 答复 

Chttps://mail. python. org/pipermail/python-list/2014-December/682651.html) 。 


O 为 了 提高 可 读 性 ， 我 们 创建 了 forever 变量 ， 如 果 self.end 属性 


的 值 是 None， 那 么 forever 的 值 是 True， 因 此 生成 的 是 无 穷 数 列 。 


O 这 个 循环 要 么 一 直 执 行 下 去 ， 要 么 当 result 大 于 或 等 于 self.end 
时 结束 。 如 果 循 环 退 出 了 ， 那 么 这 个 函数 也 随 之 退出 。 


O 生成 当前 的 result 值 。 


O 计算 可 能 存在 的 下 一 个 结果 。 这 个 值 可 能 永远 不 会 产 出 ， 因 为 
while 循环 可 能 会 终止 。 


在 示例 14-11 中 的 最 后 一 行 ， 我 没有 直接 使 用 self. step 不 断 地 增加 
result， 而 是 选择 使 用 index 变量 ， 把 self.begin 5 self.step 和 
index 的 乘积 相 加 ， 计 算 result 的 各 个 值 ， 以 此 降低 处 理 浮 点 数 时 累 
只 效应 致 错 的 风险 。 


示例 14-11 中 定义 的 ArithmeticProgression 类 能 按 预期 那样 使 用 。 
这 是 个 简单 的 示例 ， 说 明了 如 何 使用 生成 吕 西数 实现 特殊 _iter 
方法 。 然 而 ， 如 果 一 个 类 只 是 为 了 构建 生成 器 而 去 实现 iter 77 
= Le RB BE. Leta, AE dh R ase MEE AS YL 


示例 14-12 中 定义 了 一 个 名 为 aritprog_gen 的 生成 器 函数 ， 作 用 与 
ArithmeticProgression 类 一 样 ， 只 不 过 代码 量 更 少 。 如 果 把 
ee 类 换 成 aritprog gen 函数 ， 示 例 14-10 中 
的 测试 也 都 能 通过 


也 本 书 源码 仓库 Chttps://github.com/fluentpython/example-code) 中 的 14-it-generator/ 目录 里 包含 
doctest， 以 及 一 个 aritprog runner.py 脚本 ， 用 于 测试 aritprog*.py 脚本 的 所 有 版 本 。 


示例 14-12 aritprog_ gen 生成 器 函数 


def aritprog gen(begin, step, end=None): 
result = type(begin + step) (begin) 
forever = end is None 
index = @ 
while forever or result < end: 
yield result 
index += 1 
result = begin + step * index 


[L CR 


示例 14-12 很 梭 ， 不 过 始终 要 记 住 ， 标 准 库 中 有 许多 现成 的 生成 费 。 下 
一 市 会 使 用 itertools 模块 实现 ， 那 个 版 本 更 棱 。 


使 用 itertools 模 块 生 成 等 拳 数列 


Python 3.4 中 的 itertools 模块 提供 了 19 个 生成 器 函数 ， 结 合 起 来 使 
用 能 实现 很 多 有 趣 的 用 法 。 


例如 ，itertools.count 函数 返回 的 生成 器 能 生成 多 个 数 。 如 果 不 传 
入 参数 ，itertools .count 函数 会 生成 从 零 开 始 的 整数 数列 。 不 过 ， 
我 们 可 以 提供 可 选 的 start 和 step 值 ， 这 样 实现 的 作用 与 
aritprog gen 函数 十 分 相似 : 


>>> import itertools 

>>> gen = itertools.count(1, .5) 
>>> next(gen) 

1 


>>> next(gen) 
1.5 
>>> next(gen) 
2.0 
>>> next(gen) 
2.5 


Skil, itertools.count 函数 从 不 停止 ， 因 此 ， 如 果 调 用 
list(count()), Python 会 创建 一 个 特别 大 的 列表 ， 超 出 可 用 内 存 ， 在 
调用 失败 之 前 ， 电 脑 会 疡 狂 地 运转 。 


不 过 ，itertools.takewhile 函数 则 不 同 ， 它 会 生成 一 个 使 用 另 一 个 
生成 器 的 生成 器 ， 在 指定 的 条 件 计算 结果 为 False 时 停止 。 因 此 ， 可 
以 把 这 两 个 函数 结合 在 一 起 使 用 ， 编 写 下 述 代码 : 


>>> gen = itertools.takewhile(lambda n: n < 3, itertools.count(1, .5)) 


>>> list(gen) 
[1, 1.5, 2.0, 2.5] 


示例 14-13 利用 takewhile 和 count 函数， 写 出 的 代码 流畅 而 简短 。 


示例 14-13 aritprog v3.py: 与 前 面 的 aritprog gen 函数 作用 相 
同 


import itertools 


def aritprog gen(begin, step, end=None): 
first = type(begin + step) (begin) 


ap_gen = itertools.count(first, step) 
if end is not None: 

ap_gen = itertools.takewhile(lambda n: n < end, ap gen) 
return ap_gen 


注意 ， 示 例 14-13 中 的 aritprog gen 不 是 生成 器 函数 ， 因 为 定义 体 中 
没有 yield 关键 字 。 但 是 它 会 返回 一 个 生成 器 ， 因 此 它 与 其 他 生成 器 
函数 一 样 ， 也 是 生成 器 工厂 函数 。 


示例 14-13 想 表 达 的 观点 是 ， 实 现 生成 器 时 要 知道 标准 库 中 有 什么 可 
用 ， 站 鉴于 此 ， 下 一 节 会 介绍 一 些 现成 的 生 
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标准 库 提 供 了 很 多 生成 器 ， 有 用 于 逐 行 迭代 纯 文 本 文件 的 对 象 ， 还 有 出 
色 的 os.walk 函数 Chttps://docs.python.org/3/library/os.html#os.walk) 。 
这 个 函数 在 遍历 目录 树 的 过 程 中 产 出 文件 名 ， 因 此 递归 搜索 文件 系统 像 
For 循环 那样 简单 。 


os.walk 生成 器 函数 的 作用 令 人 赞叹 ， 不 过 本 节 专 注 于 通用 的 函数 ; 参 
数 为 任意 的 可 过 代 对 象 ， 返 回 值 是 生成 器 ， 用 于 生成 选中 的 、 计 算出 的 
和 重新 排列 的 元 素 。 在 下 述 几 个 表格 中 ， 我 会 概述 其 中 的 24 个 ， 有 些 
o 有 些 在 itertools 和 functools 模块 中 。 为 了 方便 ， 我 按 
函数 的 高 阶 功能 分 组 ， 而 不 管 函 数 是 在 哪里 定义 的 。 


和 CE 但 是 茶 些 函数 没有 得 到 充 
分 利用 ， 因 此 快速 概览 一 裔 能 让 你 知道 有 什么 函数 可 用 。 


蔬 一 组 是 用 于 过 滤 的 生成 器 函数 : 从 和 输入 的 可 迭 代 对 象 中 产 出 元 素 的 子 
集 ， 而 且 不 修改 元 素 本 里 。 本 章 前 面 的 14.8.1 节 用 过 
itertools.takewhile 函数 。 与 takewhile 函数 一 样 ， 表 14-1 中 的 
大 多 数 函 数 都 接受 一 个 断言 参数 (predicate) 。 这 个 参数 是 个 布尔 函 
Ne 会 应 用 到 输入 中 的 每 个 元 素 上 ， 用 于 判断 元 素 是 否 
含 在 输出 中 。 


表 14-1: 用 于 过 滤 的 生成 器 函数 
itertools | compress(it， 并 行 处 理 两 个 可 迭代 的 对 象 ， 如 果 selector_it 
selector_it) 中 的 元 素 是 真 值 ， 产 出 it 中 对 应 的 元 素 


处 理 it， 跳 过 predicate 的 计算 结果 为 真 值 华 
itertools 人 素 ， 然 后 产 出 剩 下 的 各 个 元 素 〈 不 再 进一步 检 


把 it 中 的 各 个 元 素 传 给 predicate， 如 果 
predicate(item) 返回 真 值 ， 那 么 产 出 对 应 的 元 
CAEL) |filter(predicate, it) | 素 ， 如 果 predicate 是 None， 那 么 只 产 出 真 值 元 


AN 


; | 与 Filter 函数 的 作用 类 似 ， 不 过 predicate 的 
itertools |filterfalse(predicate, | weit EMIS: predicate 返回 假 值 时 产 出 对 应 
的 元 素 


islice(it，stop) 或 产 出 it 的 切片 ， 作 用 类 似 于 s[:stop] 或 


itertools |islice(it, start, s[start:stop:step], Aw it 可 以 是 任何 可 迭代 
stop, step=1) 的 对 象 ， 而 且 这 个 函数 实现 的 是 惰性 操作 


takewhile(predicate, |predicate 返回 真 值 时 产 出 对 应 的 元 素 ， 然 后 这 
it) 即 停止 ， 不 再 继续 检查 


itertools 


示例 14-14 在 控制 台中 演示 表 14-1 中 各 个 函数 的 用 法 。 
示例 14-14 ”演示 用 于 过 滤 的 生成 器 函数 


>>> def vowel(c): 
return c.lower() in '‘aeiou' 


>>> list(filter(vowel, 'Aardvark')) 

[aty ‘a", a] 

>>> import itertools 

>>> list(itertools.filterfalse(vowel, 'Aardvark')) 
['r', 'd', 'v', Kar 'k'] 

>>> list(itertools.dropwhile(vowel, 'Aardvark')) 
['r', 'd', 'v', 'a', ME 'k'] 

>>> list(itertools.takewhile(vowel, 'Aardvark')) 
['A', 'a'] 

>>> list(itertools.compress('Aardvark', (1,0,1,1,0,1))) 
['A', 'r', 'd', 'a'] 

>>> list(itertools.islice('Aardvark', 4)) 

['A', ‘a', 'r', 'd'] 

>>> list(itertools.islice('Aardvark', 4, 7)) 

ponp tay i] 

>>> list(itertools.islice('Aardvark', 1, 7, 2)) 
Pia | 


下 一 组 是 用 于 映射 的 生成 器 函数 : 在 输入 的 单个 可 迭代 对 象 Cap 和 
starmap 函数 处 理 多 个 可 人 迭代 的 对 象 ) 中 的 各 个 元 素 上 做 计算 ， 然 后 返 
PAR. P 表 14-2 中 的 生成 器 函数 会 从 输入 的 可 迭代 对 象 中 的 各 个 元 
率 中 产 出 一 个 元 素 。 如 果 输 入 来 自 多 个 可 迭代 的 对 象 ， 第 一 个 可 迭代 的 
对 象 到 头 后 就 停止 输出 。 


2 这 里 所 说 的 “映射 "与 字典 没有 关系 ， 而 与 内 置 的 map 函数 有 关 。 


表 14-2: 用 于 映射 的 生成 器 函数 


sjo ee 


i 产 出 累积 的 总 和 ; 如 果 提 供 了 func， 那 么 把 前 两 个 
ee 元 素 传 给 它 ， 然 后 把 计算 结果 和 下 一 个 元 素 传 给 


它 ， 以 此 类 推 ， 最 后 产 出 结果 


| 产 出 由 两 个 元 素 组 成 的 元 组 ， 结 构 是 (index, 
(AB) N item), 其 中 index 从 start 开始 计数 ， item 则 从 
iterable 中 获取 


Lita, ees | 数 ， 而 且 要 并 行 处 理 各 个 可 迭代 的 对 象 


l 把 it 中 的 各 个 元 素 传 给 funce， 产 出 结果 ; 如 果 传 入 
《内置 ) |"map(func, it1, N 个 可 迭代 的 对 象 ， 那 么 func 必须 能 接受 N 个 参 


把 it 中 的 各 个 元 素 传 给 func， 产 出 结果 ; 输入 的 
itertools |starmap(func, it) FY ART RDM Ir E BIRR OR iit, 然后 以 
func(*iit) 这 种 形式 调用 func 


示例 14-15 演示 itertools.accumulate 函数 的 几 个 用 法 。 


示例 14-15 演示 itertools.accumulate 生成 器 函数 


>>> sample = [5, 4, 2, 8, 7, 6, 3, ©, 9, 1] 
>>> import itertools 

>>> list(itertools.accumulate(sample)) # @ 
[5, 9, 11, 19, 26, 32, 35, 35, 44, 45] 


>>> list(itertools.accumulate(sample, min)) #@ 

[5, 4, 2, 2, 2, 2, 2, 0, ©, @] 

>>> list(itertools.accumulate(sample, max)) # © 

[5, 5, 5, 8, 8, 8, 8, 8, 9, 9] 

>>> import operator 

>>> list(itertools.accumulate(sample, operator.mul)) # © 

[5, 20, 40, 320, 2240, 13440, 40320, ©, ©, ©] 

>>> list(itertools.accumulate(range(1, 11), operator.mul) ) 

[1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] # © 


@ 计算 总 和 

O 计算 最 小 值 。 

O 计算 最 大 值 。 

O 计算 乘积 。 

@ 从 1! 到 16!， 计 算 各 个 数 的 阶乘 。 

K 14-2 中 剩余 函数 的 演示 如 示例 14-16 所 示 。 
示例 14-16 ”演示 用 于 映射 的 生成 器 函数 


>>> list(enumerate('albatroz', 1)) # © 

[(1, ‘a'), (2, '1'), (3, 'b'), (4, 'a'), (5, 't'), (6, 

>>> import operator 

>>> list(map(operator.mul, range(11), range(11))) #@ 

[6, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100] 

>>> list(map(operator.mul, range(11), [2, 4, 8])) # © 

[6, 4, 16] 

>>> list(map(lambda a, b: (a, b), range(11), [2, 4, 8])) #@ 

[(@, 2), (1, 4), (2, 8)] 

>>> import itertools 

>>> list(itertools.starmap(operator.mul, enumerate('albatroz', 1))) # © 

['a', 'll', 'bbb', ‘aaaa', ‘'ttttt', 'rrrrrr', '0000000', "ZZZZZZZZ | 

>>> sample = [5, 4, 2, 8, 7, 6, 3, ©, 9, 1] 

>>> list(itertools.starmap(lambda a, b: b/a, 
enumerate(itertools.accumulate(sample), 1))) # O 

[5. O, 4.5, 3.6666666666666665, 4.75, 5.2, 5.333333333333333, 

5.0, 4.375, 4.888888888888889, 4.5] 


@ 从 1 开始 ， 为 单词 中 的 字母 编号 。 


@ 从 0 到 16， 计 算 各 个 整数 的 平方 。 


O 计算 两 个 可 过 代 对 象 中 对 应 位 置 上 的 两 个 元 素 之 积 ， 元 素 最 少 的 那 
个 可 迭代 对 象 到 头 后 就 停止 。 


@ 作用 等 同 于 内 置 的 zip 函数 。 

加 从 1 开始 ， 根 据 字 母 所 在 的 位 置 ， 把 字母 重复 相应 的 次 数 。 

O 计算 平均 值 。 

接 下 来 这 一 组 是 用 于 合并 的 生成 器 函数 ， 这 些 函 数 都 从 输入 的 多 个 可 达 
代 对 象 中 产 出 元 素 。chain 和 chain.from iterable 按 顺 序 ( 一 个 接 
一 个 ) 处 理 输入 的 可 迭代 对 象 ， 而 product. zip 和 zip_longest 并 
FF Mb SHAT A AS AT IE TR RR. WIFE 14-3 所 示 。 


4214-3: 合并 多 个 可 迭代 对 象 的 生成 器 函数 


EI 


itertools |chain(it1 itN) 先 产 出 itl 中 的 所 有 元 素 ， 然后 产 出 it2 中 的 
oe 所 有 元 素 ， 以 此 类 推 ， 无 颖 连接 在 一 起 


产 出 it 生成 的 各 个 可 迭代 对 象 中 的 元 素 ， 一 个 
itertools |chain.from iterable(it) Be 无 颖 连接 在 一 起 ; alig 应 该 产 出 可 迭代 


的 元 素 ， 例 如 可 从 代 的 对 象 列 表 


计算 笛 卡 儿 积 : 从 输入 的 各 个 可 迭代 对 象 中 获 
itertools |product(it1， itn, | 取 元 素 ， 合 并 成 由 NN 个 元 素 组 成 的 元 组 ， 与 舱 
repeat=1) 套 的 for 循环 效果 一 样 ，repeat 指明 重复 处 理 

BD REA FY FT TART R 


的 对 象 到 头 了 ， 就 默默 地 停止 


并 行 从 输入 的 各 个 可 和 迭代 对 象 中 获取 元 素 ， 产 
(内 置 ) |zip(it1，...，itN) 出 由 个 元 素 组 成 的 元 组 ， 只 要 有 一 个 可 返 代 


并 行 从 输入 的 各 个 可 迭代 对 象 中 获取 元 素 ， 产 


itentools |2ip_longest(itl，.…， | 出 由 和 个 元 素 组 成 的 元 组 ， 等 到 最 长 的 可 迭代 
tN, filivalue=None) | 对 象 到 头 后 才 停止 ， 空 缺 的 值 使 用 fillvalue 
填充 


示例 14-17 展示 itertools.chain 和 zip 生成 器 函数 及 其 同胞 的 用 
法 。 再 次 提醒 ，zip 函数 的 名 称 出 目 zip fastener BK zipper 〈 拉 链 ， 与 
ZIP 压缩 没有 关系 ) 。 “HEA zip 函数 ”附注 栏 介 绍 过 zip 和 
itertools.zip longest 函数 。 


示例 14-17 演示 用 于 合并 的 生成 器 函数 


>>> list(itertools.chain('ABC', range(2))) # © 

['A', 'B', 'C', ©, 1] 

>>> list(itertools.chain(enumerate('ABC'))) #@ 

[(@, 'A'), (1, 'B'), (2, 'C')] 

>>> list(itertools.chain.from_iterable(enumerate('ABC'))) # © 
[6@, 'A', 1, 'B', 2, 'C'] 

>>> list(zip('ABC', range(5))) # @ 


[('A', 0), ('B', 1), ('C', 2)] 

>>> list(zip('ABC', range(5), [10, 20, 30, 40])) # O 

[('A', ©, 10), ('B', 1, 20), ('C', 2, 30)] 

>>> list(itertools.zip_longest('ABC', range(5))) # © 

[('A', 0), ('B', 1), ('C', 2), (None, 3), (None, 4)] 

>>> list(itertools.zip_longest('ABC', range(5), fillvalue='?')) # Q 
[('A', 0), ('B', 1), ('C', 2), ('?', 3), ('?', 4)] 


@ 调用 chain 函数 时 通常 传 入 两 个 或 更 多 个 可 迭代 对 象 。 
O 如 果 只 传 入 一 个 可 迭代 的 对 象 ， 那 么 chain 函数 没什么 用 。 


© 但 是 chain.from iterable pe BUM ATER OT RP RAL TIC 
然后 按 顺 序 把 元 素 连 接 起 来 ， 前 提 是 各 个 元 素 本 里 也 是 可 迭代 的 对 象 。 


© Zip He H TEASA ERR REHA FRO) EH Sc 8 HARI 
组 。 


© zip 可 以 并 行 处 理 任意 数量 个 可 和 迭代 的 对 象 ， 不 过 只 要 有 一 个 可 和 迭代 
的 对 象 到 头 了 ， 生 成 费 就 停止 。 


@ itertools.zip longest 函数 的 作用 与 zip 类 似 ， 不 过 输入 的 所 有 
可 迭代 对 象 都 会 处 理 到 头 ， 如 果 需 要 会 填充 None。 


@ fillvalue 关键 字 参 数 用 于 指定 填充 的 值 。 


itertools.product 生成 器 是 计算 笛 卡 儿 积 的 惰性 方式 ; 在 2.2.3 节 ， 
我 们 在 多 个 for 子 句 中 使 用 列表 推导 计算 过 笛 卡 儿 积 。 此 外 ， 也 可 以 使 
用 包含 多 个 for 子 句 的 生成 器 表达 式 ， 以 惰性 方式 计算 箔 卡 儿 积 。 示 例 
14-18 演示 itertools.product 函数 的 用 法 。 


示例 14-18 演示 itertools. product 生成 器 函数 


>>> list(itertools.product('ABC', range(2))) # © 

[('A', @), C'A', 1), ('B', ©), ('B', 1), ('C', @), ('C', 1)] 

>>> suits = 'spades hearts diamonds clubs'.split() 

>>> list(itertools.product('AK', suits)) #@ 

[('A', 'spades'), ('A', ‘hearts'), ('A', 'diamonds'), ('A', ‘clubs'), 
('K', 'spades'), ('K', ‘hearts'), ('K', 'diamonds'), ('K', '‘clubs')] 
>>> list(itertools.product('ABC')) # © 

[('A',), ('B',), ('C',)] 

>>> list(itertools.product('ABC', repeat=2)) # © 

[('A', 'A'), ('A', "B'), ('A', 'C'), ('B', 'A'), ('B', 'B'), 

('B', 'C'), (C'C', 'A'), ('C', 'B'), C'C', 'C')] 

>>> list(itertools.product(range(2), repeat=3)) 

[(@, ©, ©), (©, ©, 1), (@, 1, ©), (@, 1, 1), (1, ©, @), 

(1, ©, 1), (1, 1, ©), (1, 1, 1)] 

>>> rows = itertools.product('AB', range(2), repeat=2) 

>>> for row in rows: print(row) 


('A', @, 'A', @) 
('A', @, 'A', 1) 
('A', @, 'B', @) 
('A', @, 'B', 1) 
('A', 1, 'A', @) 
('A', 1, 'A', 1) 
('A', 1, 'B', @) 
('A', 1, 'B', 1) 
('B', @, 'A', @) 
('B', ©, ‘A’, 1) 
('B', ©, 'B', @) 
('B', @, 'B', 1) 
('B', 1, ‘A’, @) 
('B', 1, ‘A’, 1) 
('B', 1, 'B', @) 


@ =P FFF ST EY a AY BB LAR EN Pc 
(因为 3 * 2 等 于 6) 。 


O 两 张 牌 〈'AK' ) 与 四 种 花色 得 到 的 笛 卡 儿 积 是 八 个 元 组 。 


O 如 果 传 入 一 个 可 迭代 的 对 象 ，product 函数 产 出 的 是 一 系列 只 有 一 
个 元 素 的 元 组 ， 不 是 特别 有 用 。 


@ repeat=N 关键 字 参 数 告诉 product 函数 重复 N 次 处 理 输入 的 各 个 
PARIR. 


AEE AE MAS PRB AnA PAMA, RA ART R, 
如 表 14-4 所 示 。 


表 14-4: 把 输入 的 各 个 元 素 扩展 成 多 个 输出 元 素 的 生成 器 函数 
it 产 `J ou en 个 元 素 组 合 
pera out_len) oo 站 元 素 组 合 在 


AR | 把 丰产 出 的 out_len 个 元 素 组 合 在 

ee combinations with replacement(it, 一 起 ， 然后 产 出 ， 包含 相同 元 素 的 
out_len) 组 合 
a A 


AJS EF SE LH > 
porn ere step=1) 0 i 
Vy E 
Mit 中 产 出 各 个 元 素 ， 存 储 各 个 元 
itertools | cycle(it) 素 的 副本 ， 然 后 按 顺 序 重 复 不 断 地 
产 出 各 个 元 素 


把 out_len 个 it 产 出 的 元 素 排列 在 
一 起 ， 然 后 产 出 这 些 排 列 ; out_len 


itertools |permutations(it, out len=None) 


的 默认 值 等 于 len(list(it)) 


重复 不 断 地 产 出 指定 的 元 素 ， 除 非 


itertools |repeat(item, [times]) 提供 times， 指 定 次 数 


itertools 模块 中 的 count 和 repeat 函数 返回 的 生成 器 “无 中 生 有 ?”: 
这 两 个 函数 都 不 接受 可 迭代 的 对 象 作 为 输入 。14.8.1 节 见 过 
itertools.count 函数 。cycle 生成 器 会 备份 输入 的 可 迭代 对 象 ， 然 
后 重复 产 出 对 象 中 的 元 素 。 示 例 14-19 演示 count, repeat 和 cycle 
的 用 法 。 


示例 14-19 演示 count, repeat 和 cycle 的 用 法 


ct = itertools.count() # © 
next(ct) #@ 


next(ct), next(ct), next(ct) # © 

2, 3) 

list(itertools.islice(itertools.count(1, .3), 3)) # © 
1.3, 1.6] 

cy = itertools.cycle('ABC') # O 

next(cy) 


list(itertools.islice(cy, 7)) # © 

ge 'C', 'A', 'B', 'C', 'A', 'B'] 

rp = itertools.repeat(7) #@ 

next(rp), next(rp) 

7) 

list(itertools.repeat(8, 4)) # O 

8, 8, 8] 

list(map(operator.mul, range(11), itertools.repeat(5))) # © 
5, 10, 15, 20, 25, 30, 35, 40, 45, 50] 


@ 使 用 count 函数 构建 ct 生成 器 。 
@ 获取 ct 中 的 第 一 个 元 素 。 


A ct 构建 列表 ， 因 为 ct 是 无 穷 的 ， 所 以 我 获取 接 下 来 的 3 
上 元 系 。 


四 如果 使 用 islice 或 takewhile 函数 做 了 限制 ， 可 以 从 count 生成 
器 中 构建 列表 。 


@ 使 用 'ABC ' 构建 一 个 cycle 生成 器 ， 然 后 获取 第 一 个 元 素 

—'A'e 

re — islice 函数 的 限制 ， 才 能 构建 列表 ; 这 里 获取 接 下 来 的 7 
DILA 

@ 构建 一 个 repeat 生成 器 ， 始 终 产 出 数字 7。 


@ (EA times 参数 可 以 限制 repeat 生成 器 生成 的 元 素数 量 : 这 里 会 
生成 4 次 数字 8。 


O repeat 函数 的 常见 用 途 : 为 map 函数 提供 固定 参数 ， 这 里 提供 的 是 
FELL 5。 


在 itertools 模块 的 文档 中 
(https://docs.python.org/3/library/itertools.html ) , combinations. comb 
和 permutations 生成 器 函数 ， 连 同 product 函数 ， 称 为 组 合 学 生成 
器 (combinatoric generator) > itertools.product 函数 和 其 余 的 组 合 
学 函数 有 紧密 的 联系 ， 如 示例 14-20 所 示 。 


示例 14-20 组 合 学 生成 器 函数 会 从 输入 的 各 个 元 素 中 产 出 多 个 值 


>>> list(itertools.combinations('ABC', 2)) #@ 

[('A', "B'), ('A', 'C'), ('B', 'C')] 

>>> list(itertools.combinations_with_replacement('ABC', 
[('A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'B'), ('B', 


>>> list(itertools.permutations('ABC', 2)) # © 
[('A", 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), 
>>> list(itertools.product('ABC', repeat=2)) # 
[CA 'A'), ('A', 'B'), ('A', 'C'), ('B', 

Co WCE By Ces RE) 


@ 'ABC' 中 每 两 个 元 素 (len()==2) 的 各 种 组 合 ; 在 生成 的 元 组 中 ， 
元 素 的 顺序 无 关 紧 要 可 以 视 作 和 集合 ) 


四 'ABC' 中 每 两 个 元 素 (len()==2) 的 各 种 组 合 ， 包 括 相 同 元 素 的 组 


A 
O o 


© 'ABC' 中 每 两 个 元 素 (len()==2) 的 各 种 排列 ; 在 生成 的 元 组 中 ， 
元 素 的 顺序 有 重要 意义 。 


@ 'ABC' 和 'ABC' (repeat=2 的 效果 ) 的 笛 卡 儿 积 。 


本 节 要 讲 的 最 后 一 组 生成 器 函数 用 于 产 出 输入 的 可 迭代 对 象 中 的 全 部 元 
素 ， 不 过 会 以 某 种 方式 重新 排列 。 其 中 有 两 个 函数 会 返回 多 个 生成 器 ， 

分 别 是 itertools.groupby 和 itertools.tee。 这 一 组 里 的 另 一 个 

生成 器 函数 ， 内 置 的 reversed 函数 ， 是 本 节 所 述 的 函数 中 唯一 一 个 不 
接受 可 返 代 的 对 象 ， 而 只 接受 序列 为 参数 的 函数 。 这 在 情理 之 中 ， 因 为 
reversed 函数 从 后 同 前 产 出 元 素 ， 而 只 有 序列 的 长 度 已 知 时 才能 

作 。 不 过 ， 这 个 函数 会 按 需 产 出 各 个 元 素 ， 因 此 无 需 创 建 反 转 的 副本 。 

我 把 itertools.product 函数 划分 为 用 于 合并 的 生成 器 ， 列 在 表 14-3 
中 ， 因 为 那 一 组 函数 都 处 理 多 个 可 迭代 的 对 象 ， 而 表 14-5 中 的 生成 器 

最 多 只 能 接受 一 个 可 迭代 的 对 象 。 


4014-5: 用 于 重新 排列 元 素 的 生成 占 函 数 


产 出 由 两 个 元 素 组 成 的 元 素 ， 形 式 为 (key, 
itertools | groupby(it,key=None) | group), 其 中 key 是 分 组 标准 ， group 是 生成 器 ， 
用 于 产 出 分 组 里 的 元 素 


人 从 后 疝 前 ， 倒 序 产 出 seq 中 的 元 素 ; seq 必须 是 序 
列 ， 或 者 是 实现 了 _reversed_ _ 特殊 方法 的 对 象 


EE P E T 产 出 一 个 由 nn 个 生成 器 组 成 的 元 组 ， 每 个 生成 器 
a HTI HA FS GS FT BRP A 7G 


示例 14-21 演示 itertools.groupby 函数 和 内 置 的 reversed 函数 的 
用 法 。 注 意 ，itertools.groupby 假定 输入 的 可 迭代 对 象 要 使 用 分 组 
标准 排序 ， 即 使 不 排序 ， 至 少 也 要 使 用 指定 的 标准 分 组 各 个 元 素 。 


示例 14-21 itertools.groupby 函数 的 用 法 


>>> list(itertools.groupby('LLLLAAGGG')) # © 

[('L', <itertools. grouper object at @x102227cc@>), 

('A', <itertools. grouper object at 9x102227b38>), 

('G', <itertools. grouper object at @x102227b7@>) ] 

>>> for char, group in itertools.groupby('LLLLAAAGG'): # @ 
print(char, '->', list(group) ) 


L -> ['L', 'L', 'L', 'L'] 

A -> ['A', 'A',] 

Ges pansies e] 

>>> animals ['duck', 'eagle', 'rat', 'giraffe', 'bear', 

seed 'bat', ‘dolphin', ‘shark', ‘lion'] 

>>> animals.sort(key=len) # © 

>>> animals 

['rat', 'bat', ‘duck', 'bear', ‘lion', ‘eagle', ‘shark’, 

"giraffe', ‘dolphin’ | 

>>> for length, group in itertools.groupby(animals, len): # @ 
print(length, '->', list(group) ) 


-> ['rat', 'bat'] 
-> ['duck', ‘bear’, ‘lion'] 
-> ['eagle', ‘shark’ ] 
-> ['giraffe', ‘dolphin’ ] 
>>> for length, group in itertools.groupby(reversed(animals), len): # © 
print(length, '->', list(group) ) 


['dolphin', ‘giraffe’ ] 
['shark', ‘eagle’ ] 
['lion', 'bear', 'duck' ] 
['bat', 'rat'] 


@ groupby 函数 产 出 (key, group_generator) 这 种 形式 的 元 组 。 


@ 处 理 groupby 函数 返回 的 生成 器 要 骨 套 迭代 : 这 里 在 外 层 使 用 for 
循环 ， 内 层 使 用 列表 推导 。 


© 为 了 使 用 groupby 函数 ， 要 排序 输入 ;这 里 按照 单词 的 长 度 排序 。 


key 和 group 值 对 ， 把 key 显示 出 来 ， 并 把 group 扩展 成 
列表 。 


O 这 里 使 用 reverse EAs MA mA animals. 


这 一 组 里 的 最 后 一 个 生成 器 函数 是 iterator .tee， 这 个 函数 只 有 一 个 
作用 : 从 输入 的 一 个 可 迭代 对 象 中 产 出 多 个 生成 器 ， 每 个 生成 器 都 可 以 
产 出 输入 的 各 个 元 素 。 产 出 的 生成 器 可 以 单独 使 用 ， 如 示例 14-22 所 
Ro 


示例 14-22 itertools.tee 函数 产 出 多 个 生成 器 ， 每 个 生成 器 都 
可 以 产 出 输入 的 各 个 元 素 


>>> list(itertools.tee('ABC')) 
[<itertools. tee object at 0x10222abc8>, <itertools. tee object at @x10222ac@ 
>>> g1, g2 = itertools.tee('ABC') 

next(g1) 


next(g2) 


next(g2) 


list(g1) 

Tees 

list(g2) 

'] 

list(zip(*itertools.tee('ABC'))) 
[(‘A', 'A'), ('B', 'B'), ('C', 'C')] 


注意 ， 这 一 节 的 示例 多 次 把 不 同 的 生成 器 函数 组 合 在 一 起 使 用 。 这 是 这 
些 函 数 的 优秀 特性 : 这 些 函 数 的 参数 都 是 生成 器 ， 而 返回 的 结果 也 是 生 
成 句 ， 因 此 能 以 很 多 不 同 的 方式 结合 在 一 起 使 用 。 


既然 讲 到 了 这 个 话题 ， 那 就 介绍 一 下 Python 3.3 中 新 出 现 的 yield 
from 语句 。 这 个 语句 的 作用 就 是 把 不 同 的 生成 器 结合 在 一 起 使 用 。 


14.10 Python 3.3 中 新 出 现 的 句法 : yield 
from 


WIRE Beas BB A ris BET HH 9 NE ae EI EL, Fe AAR TT ce NE 
HREK for 循环 。 


例如 ， 下 面 是 我 们 自己 实现 的 chain 生成 器 ，13 


3 标准 库 中 的 itertools.chain 函数 是 使 用 C 语言 编写 的 。 


>>> def chain(*iterables): 
for it in iterables: 
for i in it: 
yield i 


>>> s = 'ABC' 

>>> t = tuple(range(3) ) 
>>> list(chain(s, t)) 
['A', 'B', 'C', ©, 1, 2] 


chain Æ kas RAER LE RAC 2 FRE Bl) PY IE UT RAY 
ik, “PEP 380 — Syntax for Delegating to a 

Subgenerator” Chttps://www.python.org/dev/peps/pep-0380/) 引入 了 一 个 
新 句法 ， 如 下 述 控制 台中 的 代码 清单 所 示 : 


>>> def chain(*iterables): 
for i in iterables: 
yield from i 


>>> list(chain(s, t)) 
['A', 'B', 'C', ©, 1, 2] 


可 以 看 出 ，yield from i WERE J WEK for 循环 。 在 这 个 示例 中 
使 用 yield from 是 对 的 ， 而 且 代 码 读 起 来 更 顺畅 ， 不 过 感觉 更 像 是 语 
法 糖 。 除 了 代替 循环 之 外 ，yie1d from 还 会 创建 通道 ， 把 内 层 生成 器 


直接 与 外 层 生 成 器 的 客户 端 联系 起 来 。 把 生成 器 当成 协 程 使 用 时 ， 这 个 
通道 特别 重要 ， 不 仅 能 为 客户 端 代码 生成 值 ， 还 能 使 用 客户 端 代码 提供 
的 值 。 第 16 章 会 深入 讲解 协 程 ， 其 中 有 几 页 会 说 明 为 什么 yield 
from 不 只 是 语法 糖 而 已 。 


—Ħ yield from 之 后 ， 我 们 回 过 头 继续 复习 标准 库 中 善于 处 理 可 迭代 
对 象 的 函数 。 


14.11 PARK eh By 


表 14-6 中 的 函数 都 接受 一 个 可 迭代 的 对 象 ， CA F 
PRI CNY “YAY” pk E RE ZI” PRI 数 。 其 其 实 ， 这 里 列 出 的 每 个 
内 置 函数 都 可 以 使 用 functools.reduce 函数 实现 ， 内 置 是 因为 使 用 
它们 便于 解决 常见 的 问题 。 此 外 ， 对 all 和 any 函数 来 说 ， 有 一 项 重 
要 的 优化 描记 多 是 reduce 函数 做 不 到 的 : 这 两 个 函数 会 短路 〈 即 一 旦 确 

| | 参见 示例 14-23 中 any 函数 的 最 后 
= 人 测试 


表 14-6: 读 取 迭代 器 ， 返 回 单个 值 的 内 置 函数 
it a 回 True, AURE] False; 
: 只 要 it 中 有 元 素 为 真 值 就 返回 true, FURE] False; 
有 a S 


max(it, 返回 it 中 值 最 大 的 元 素 ; “key 是 排序 函数 ， 与 sorted M 


返回 it 中 值 最 小 的 元 素 ; “key 是 排序 函数 ， 与 sorted K 
[default=]) | 数 中 的 一 样 ， 如 果 可 和 迭代 的 对 象 为 室 ， 返 回 default 


C |) =, : Ss ec 
ow li, 数 中 的 一 样 ， 如 果 可 迭代 的 对 象 为 空 ， 返 回 default 


reduce(func, | 把 前 两 个 元 素 传 给 func， 然 后 把 计算 结果 和 第 三 个 元 素 传 
functools | it， 给 func， 以 此 类 推 ， 返 回 最 后 的 结果 如 果 提 供 了 
[initial]) |initial， 把 它 当 作 第 一 个 元 素 传 入 


it 中 所 有 元 素 的 上 总和， 如果 提供 可 选 的 start, 会 把 它 加 
J | es 上 《计算 浮 点 数 的 加 法 时 ， 可 以 使 用 math. fsum 函数 提高 


start=0) 精度 ) 
cba 


| 


* 也 可 以 像 这 样 调 用 : max(arg1，arg2，...，[key=?])， 此 时 返回 参数 中 的 最 大 值 。 


# 也 可 以 像 这 样 调用 : min(arg1，arg2，...，[key=?])， 此 时 返回 参数 中 的 最 小 值 。 
all 和 any 函数 的 操作 演示 如 示例 14-23 所 示 。 
示例 14-23 ”把 几 个 序列 传 给 all M any 函数 后 得 到 的 结 


>>> all([1, 2, 
True 

>>> all([1, 
False 

>>> all([]) 
True 

>>> any([1, 
True 

>>> any([1, 
True 

>>> any([@, 
False 

>>> any([]) 
False 

>>> g = (n for n in [6, 0.0, 7, 8]) 
>>> any(g) 
True 

>>> next(g) 


10.6 节 更 为 深入 地 解释 过 functools .reduce 函数 。 


还 有 一 个 内 置 的 函数 接受 一 个 可 迭代 的 对 象 ， 返 回 不 同 的 值 
—sorted. reversed 是 生成 器 函数 ， 与 此 不 同 ，sorted 会 构建 并 
返回 真正 的 列表 。 毕 竟 ， 要 读 取 输入 的 可 迭代 对 象 中 的 每 一 个 元 素 才 能 
排序 ， 而 且 排 序 的 对 象 是 列表 ， 因 此 sorted 操作 完成 后 返回 排序 后 的 
列表 。 我 在 这 里 提 到 sorted， 是 因为 它 可 以 处 理 任 意 的 可 迭代 对 象 。 


当然， sorted Ua Se ag eae a E 
则 ， 这 些 函 数 会 一 直 收 集 元 素 ， 永 远 无 法 返回 结果 。 


下 面 ， 我 们 回 过 头 来 分 析 内 置 的 iter() 函数 ， 它 还 有 一 个 鲜 为 人 知 的 


特性 没有 
没 
JN 
介绍 
ZA 
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如 前 所 述 ， 在 Python 中 迭代 对 象 x 时 会 调用 iter (x). 


可 是 ，iter 函数 还 有 一 个 鲜 为 人 知 的 用 法 : 传 入 两 个 参数 ， 使 用 常规 
的 函数 或 任何 可 调用 的 对 象 创 建 欠 代 器 。 这 样 使 用 时 ， 第 一 个 参数 必须 
是 可 调用 的 对 象 ， 用 于 不 断 调 用 〈 没 有 参数 ) ， 产 出 各 个 值 ， 第 二 个 值 
是 哨 符 ， 这 是 个 标记 值 ， 当 可 调用 的 对 象 返 回 这 个 值 时 ， 触 发达 代 器 抛 
出 StopIteration 异常 ， 而 不 产 出 哨 符 。 


下 述 示例 展示 如 何 使 用 iter KART. ELBE 1 ANE: 


4 需要 在 这 个 示例 的 最 前 面 添加 一 句 : from random import randint。- 编者 注 


>>> def d6(): 
return randint(1, 6) 


>>> d6_iter = iter(d6, 1) 
>>> d6_iter 
<callable_ iterator object at ©0x00000000029BE6A0> 


>>> for roll in d6_iter: 
print(roll) 


注意 ， 这 里 的 iter 函数 返回 一 个 callable iterator 对 象 。 示 例 中 
的 for 循环 可 能 运行 特别 长 的 时 间 ， 不 过 上 育 定 不 会 打印 1， 因 为 1 是 哨 
符 。 与 常规 的 迭代 器 一 样 ， 这 个 示例 中 的 d6_iter >} R— ARES wi 
用 了 。 如 有 果 想 重新 开始 ， 必 须 再 次 调用 iter(...)， 重 新 构建 迭代 器 。 
Ay ea iter 的 文档 

Chttps://docs.python. co Bagge ede te html#iter) 中 有 个 实用 的 例 
子 。 这 上 段 代 人 码 逐 行 读 取 文 件 ， 直 到 遇 到 空 行 或 者 到 达 文 件 末 尾 为 止 : 


with open('mydata.txt') as fp: 


for line in iter(fp.readline, ‘\n'): 
process_line(line) 


Ae 我 要 举 个 实用 的 例子 ， 说 明 如 何 使 用 生成 器 局 效 处 理 大 
量 数据 。 


14.13 ”案例 分 析 : 在 数据 库 转换 工具 中 使 
HÆ at 

几 年 前 ， 我 在 BIREME 工作 ， 这 是 PAHO/WHO (Pan-American Health 
Organization/World Health Organization， 泛 美 卫生 组 织 /世界 卫生 组 织 ) 
在 圣保罗 运营 的 一 家 数字 图 书馆 。 BIREME 制作 的 众多 书目 数据 集中 包 
“= LILACS (Latin American and Caribbean Health Sciences index， 拉 美和 
加 勒 比 地 区 健康 科学 索引 ) 和 SciELO (Scientific Electronic Library 
Online， 电 子 科 学 在 线 图 书馆 ) ， 这 两 个 数据 库 完 整 索 引 了 这 一 地 区 发 
布 的 科学 和 技术 作品 。 


从 20 世纪 80 年 代 后 期 开始 ， 管 理 LILACS 的 数据 库 系统 是 CDS/ISIS。 
这 是 UNESCO 开发 的 非 关 系 型 文档 数据 库 ， 后 来 为 了 在 GNU/Linux 服 
务 器 上 运行 ，BIREME 使 用 C 语言 重 写 了 。 我 的 工作 之 一 是 探索 替代 方 
案 ， 把 LILACS 移植 到 现代 的 开源 文档 数据 库 〈( 最 终 还 要 移植 大 得 多 的 
SciELO) ， 例 如 CouchDB 或 MongoDB。 


在 探索 的 过 程 中 ， 我 编写 了 一 个 Python 脚本 一 一 isis2json.py， 把 
CDS/ISIS 文件 转换 成 适合 导入 CouchDB 或 MongoDB 的 JSON 文件 。 起 
初 ， 这 个 脚本 读 取 文件 的 是 CDS/ISIS 导出 的 ISO-2709 格式 。 读 写 过 程 
必须 采用 渐进 方式 ， 因 为 完整 的 数据 集 比 主 内 存 大 得 多 。 人 解决 方 法 很 简 
单 : E for 循环 每 次 迭代 时 从 iso 文件 中 读 取 一 个 记录 ， 转 换 后 将 其 写 
入 json 文件 。 


然而 ， 在 实际 操作 中 有 必要 让 isis2json.py 支持 CDS/ISIS 的 另 一 种 数据 
格式 一 一 BIREME 在 生产 环境 中 使 用 的 二 进 制 .mst 文件 ， 避 免 导出 为 
ISO-2709 格式 时 消耗 过 多 资源 。 


现在 我 遇 到 一 个 问题 : 用 来 读 取 ISO-2709 和 .mst 文件 的 库 提 供 的 API 
差别 很 大 。 而 输出 ISON 格式 的 循环 已 经 很 复杂 了 ， 因 为 这 个 脚本 要 接 
受 多 个 命令 行 选项 ， 每 次 输出 时 调整 记录 的 结构 。 在 同一 个 for 循环 中 
使 用 两 个 不 同 的 API， 同 时 还 要 生成 JSON， 这 样 太 难以 管理 了 。 


解雇 方法 是 隅 离 谈 取 逻辑 ， 写 进 两 个 后 成 器 函数 中 : 一 个 函数 支持 一 种 
输入 格式 。 最 终 ， 我 把 isis2json.py 脚本 分 成 了 四 个 函数 。 使 用 Python 2 


编写 的 主 脚 本 如 示例 A-5， 带 依赖 的 完整 源码 在 GitHub 中 的 
fluentpython/isis2json 仓库 里 (https:/github.coryfluentpythomisis2json) 。 


下 面 概览 这 个 脚本 的 结构 。 
main 


main 函数 使 用 argparse 模块 读 取 命令 行 选项 ， 用 于 配置 输出 记 
录 的 结构 。 根 据 输入 文件 的 扩展 名 ，main 函数 会 选择 一 个 合适 的 生成 
器 函数 ， 逐 个 读 取 数 据 ， 然 后 产 出 记录 。 


iter_iso records 
这 个 生成 器 函数 用 于 读 取 .iso 文件 (假设 是 ISO-2709 格式 ) ， 有 
两 个 参数 : 一 个 是 文件 名 ; 另 一 个 是 isis json type， 即 一 个 与 记录 


结构 有 关 的 选项 。 在 这 个 函数 的 For JAA, BEVEL, 
然后 创建 一 个 空 字典 ， 把 数据 填充 进 字段 之 后 产 出 字典 。 


iter_mst_records 


这 也 是 一 个 生成 器 函数 ， 用 于 读 取 .mst hF. 15 阅读 isis2json.py 
脚本 的 源码 后 你 会 发 现 ， 这 个 函数 没有 iter_iso_records 函数 简 
单 ， 不 过 接口 和 整体 结构 是 相同 的 : 参数 是 文件 名 和 
isis_json_type, for 循环 每 次 迭代 时 构建 并 产 出 一 个 字典 ， 表 示 一 
外 记录: 


二 用 来 读 取 复 杂 的 .mst 二 进 制 文件 的 库 其 实 是 用 Java 编写 的 ， 因 此 只 有 使 用 Jython 解释 器 2.5 
或 以 上 版 本 执行 isis2json.py 脚本 才能 使 用 这 个 功能 。 详 情 参 见 仓库 里 的 README.rst 文件 

Chttps://github.com/fluentpython/isis2json/blob/master/README. rst) 。 因 为 依赖 在 需要 使 用 的 生成 
器 函数 中 导入 ， 所 以 即便 只 有 一 个 外 部 依赖 可 用 ， 这 个 脚本 仍 能 运行 。 


a 


write json 


这 个 函数 把 记录 输出 为 JSON 格式 ， 而 且 一 次 输出 一 个 记录 。 它 的 
参数 很 多 ， 其 中 第 一 个 参数 Cinput_gen) 是 对 某 个 生成 器 函数 的 引 
Fa: iter_iso_records 或 iter_mst_records。write_json 函数 的 
E for WAFER input_gen 引用 的 生成 器 产 出 的 字典 ， 根 据 命 令 行 先 
项 设 定 的 方式 处 理 ， 然 后 把 JSON 格式 的 记录 附加 到 输出 文件 里 。 
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式 是 ， 把 所 有 记录 读 进 内 存 ， 然 后 写 入 硬盘 。 可 征 这样 并 不 可 行 ， 因 为 
数据 集 很 大 。 而 使 用 生成 器 的 话 ， 可 以 交叉 读 写 ， 因 此 这 个 脚本 可 以 处 
理 任意 大 小 的 文件 。 


现在 ， 如 果 isis2json.py 脚本 需要 再 支持 一 种 输入 格式 ， 比 如 说 美国 国 
会 图 书馆 用 于 表示 ISO-2709 格式 数据 的 MARCXML 文档 格式 ， 只 需 再 
添加 一 个 生成 器 函数 ， 实 现 读 逻 辑 ， 而 复杂 的 write _json 函数 无 需 任 
何 改 动 。 

这 不 是 什么 尖端 科技 ， 可 是 通过 这 个 实例 我 们 看 到 了 生成 器 的 灵活 性 。 
使 用 生成 器 处 理 数据 库 时 ， 我 们 把 记录 看 成 数据 流 ， 这 样 消耗 的 内 存量 
最 低 ， 而 且 不 管 数 据 有 多 大 都 能 处 理 。 只 要 管理 着 大 型 数据 集 ， 都 有 可 
能 在 实践 中 找到 机 会 使 用 生成 器 。 


下 一 节 讨 论 暂 时 要 跳 过 的 一 个 生成 器 特性 。 为 什么 要 跳 过 呢 ? 原因 如 
iis 
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Python 2.2 引入 了 yield 关键 字 实 现 的 生成 器 函数 ， 大 约 五 年 后 ， 
Python 2.5 实现 了 “PEP 342 一 Coroutines via Enhanced 

Generators” Chttps://www.python.org/dev/peps/pep-0342/) 。 这 个 提案 为 
~、 了 额外 的 方法 和 功能 ， 其 中 最 值得 关注 的 是 .send() 
万 ;二 5 


与 。_next_() 方法 一 样 ，.send () 方法 致使 生成 器 前 进 到 下 一 个 
yield 语句 。 不 过 ，.send() 方法 还 允许 使 用 生成 器 的 客户 把 数据 发 给 
自己 ， 即 不 管 传 给 .send() 方法 什么 参数 ， 那 个 参数 都 会 成 为 生成 器 
函数 定义 体 中 对 应 的 yield 表达 式 的 值 。 也 就 是 说 ，.send() 方法 允 
许 在 客户 代码 和 生成 器 之 间 双 同 交 换 数据 。 而 e next__() 方法 只 人 多 
许 客 户 从 生成 器 中 获取 数据 。 
这 是 一 项 重要 的 “改进 ”， 甚 至 改变 了 生成 器 的 本 性 : 像 这 样 使 用 的 话 ， 
生成 器 就 变 身 为 协 程 。 在 PyCon US 2009 期 间 举 办 的 一 场 著名 的 课程 中 
(http://www.dabeaz.com/coroutines/) , David Beazley〈 可 能 是 Python 社 
区 中 在 协 程 方面 最 多 产 的 作者 和 演讲 者 ) 提醒 道 : 

。 生 成 喜 用 于 生成 供 友 代 的 数据 

。 协 程 是 数据 的 消费 者 

。 为 了 避免 脑袋 炸 裂 ， 不 能 把 这 两 个 概念 混为一谈 

。 协 程 与 兴 代 无 关 

° 注意 ， 虽然 在 协 程 中 会 使 用 yield 产 出 值 ， 但 这 与 迭代 无 关 


David Beazley 
“A Curious Course on Coroutines and Concurrency” 


1 摘自 “A Curious Course on Coroutines and 
Concurrency” Chttp://www.dabeaz.com/coroutines/Coroutines.pdf) 的 第 33 张 约 灯 片 ， 题 


A‘Keeping It Straight”. 


RENEE, BUCA RARE CAAA IED eR IK 
AN) ， 而 不 涉及 把 生成 器 当成 协 程 使 用 的 send 方法 和 其 他 特性 。 第 16 


章 会 讨论 协 程 。 


14.15 本 章 小 结 


Python i BIE ACA Sc FARA, ALGER Ze a ik, Python 已 经 融合 
Sap 了 和 迭代 器 。17Python 从 语义 上 集成 迭代 器 模式 是 个 很 好 的 例 
， 说 明 设 计 模 式 在 各 种 编程 语言 中 使 用 的 方式 并 不 相同 。 在 Python 
中 自己 动手 实现 的 典型 迭代 器 (如 示例 14-4 所 示 ) 没有 实际 用 途 
只 能 用 作 教 学 示例 。 


“根据: 新 黑客 字典 (Jargon file, http://catb. ee html) , grok 的 意思 不 仅 是 
学 会 了 新 知识 ， 还 要 充分 吸收 知识 ， 做 到 “人 剑 合 一 


本 章 中 编写 了 一 个 类 的 几 个 版 本 ， 用 于 读 取 内 容 可 能 很 多 的 文件 ， 并 友 
代 里 面 的 单词 。 因 为 用 了 生成 器 ， 所 以 在 重 构 的 过 程 中 ，Sentence 类 
越 来 越 简 短 ， 越 来 越 易 于 阅读 。 最 终 ， 我 们 知道 了 生成 器 的 工作 原理 。 


后 来 ， 我 们 编写 了 一 个 用 于 生成 等 半数 列 的 生成 器 ， 还 说 明了 如 何 利用 
模块 做 简化 。 随 后 ， 概 览 了 标准 库 中 24 个 通用 的 生成 器 函 


接着 ， 我 们 分 析 了 内 置 的 iter 函数 : 首先 说 明 ， 以 iter(o) 的 形式 调 
用 时 返回 的 是 迭代 器 ; 之 后 分 析 ， 以 iter(func，sentinel) 的 形式 
调用 时 ， 能 使 用 任何 函数 构建 迭代 器 。 


分 析 实 例 时 ， 我 说 明了 一 个 数据 库 转换 工具 的 实现 方式 ， 指 明 如 何 使 用 
生成 器 函数 解 看 读 写 逻 辑 ， 如 何 高 效 处 理 大 型 数据 集 ， 以 及 如 何 轻 易 支 
持 多 种 数据 输入 格式 。 


oo Python 3.3 中 新 出 现 的 yield from 名 法， 还 有 协 程 。 这 
只 对 二 者 做 了 简单 介绍 ， 本 书后 面 会 更 为 深入 地 讨论 。 


14.16 ”延伸 阅读 


在 Python 语言 参考 手册 中 ，“6.2.9. Yield 

expressions” (https://docs.python.org/3/reference/expressions.html#yieldexpr 
从 技术 层面 深入 说 明了 生成 器 。 定 义 生成 器 函数 的 PEP 是 “PEP 255— 
Simple Generators” Chttps://www.python.org/dev/peps/pep-0255/) 。 


itertools 模块 的 文档 Chttps://docs.python.org/3/library/itertools.html ) 
写 得 很 棱 ， 包 含 大量 示 例 。 虽 然 那 个 模块 里 的 函数 是 使 用 C 语言 实现 
的 ， 不 过 文档 展示 了 如 何 使 用 Python 实现 部 分 函数 ， 这 通常 要 利用 模块 
里 的 其 他 函数 。 用 法 示例 也 很 好 ， 例 如 ， 有 一 个 代码 片段 说 明 如 何 使 用 
accumulate 函数 计算 带 利 奶 的 分 期 还 蒜 ， 得 出 每 次 要 还 多 少 。 文 档 中 
还 有 一 节 是 “Ttertools 

Recipes” Chttps://docs.python.org/3/library/itertools.html#itertools- 

recipes) ， 说 明 如 何 使 用 itertools 模块 中 的 现 有 函数 实现 额外 的 高 
性 能 函数 。 


在 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版) 中文 
版 》 一 书 中 ， 第 4 章 有 16 个 诀 穹 涵 凋 了 这 个 话题 ， 虽 然 角度 人 不同， 但 
都 关注 实际 应 用 。 


“What's New in Python 3.3”( 人 参见 “PEP 380: Syntax for Delegating to a 
Subgenerator”, https://docs.python.org/3/whatsnew/3.3.html#pep-380-syntax- 
for-delegating-to-a-subgenerator) 通过 示例 说 明了 yield from 句法 。 本 
书 16.7 节 和 16.8 节 还 会 讨论 这 个 句法 。 


如 果 你 对 文档 数据 库 感 兴趣 ， 想 进一步 了 解 14.13 市 的 背景 ， 可 以 阅读 
我 发 布 在 Code4Lib Journal Gt AVE SRA) 上 的 论文 ， 题 
为 “From ISIS to CouchDB: Databases and Data Models for Bibliographic 
Records” Chttp://journal.code4lib.org/articles/4893) ， 其 中 有 一 节 对 
isis2json.py 脚本 做 了 说 明 。 这 篇 论文 的 剩余 内 容 说 明文 档 数据 库 〈 如 
CouchDB 和 MongoDB) 实现 半 结 构 化 数据 模型 的 方式 ， 以 及 为 什么 这 
种 模型 比 关 系 模型 更 适合 用 于 收集 书目 数据 。 


A 
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在 设计 不 同 目的 的 控制 和 显示 设备 时 ， 设 计 师 需要 确认 它们 之 
HRA H TE o 


Donald Norman 
《设计 心理 学 》 


在 编程 语言 中 ， 源 码 是 “控制 和 显示 设备 "。 我 觉得 Python 设计 得 特 
别 好 ， 源 码 的 可 读 性 通常 很 蜗 ， 好 像 伪 代码 一 样 。 可 是 ， 没 有 什么 
是 完美 的 。Guido van Rossum 应 该 遵从 Donald Norman 的 建议 (如 
上 述 引 文 )》， 引 入 新 的 关键 字 ， 用 于 定义 生成 器 函数 ， 而 不 该 继续 
使 用 def。 其 实 ，“PEP 255 一 Simple 

Generators” (https://www.python.org/dev/peps/pep-0255/) 中 

的 “BDFL Pronouncements” 一 节 已 经 提议 : 


深 藏 于 定义 体 中 的 "yield 语句 不 足以 提醒 语义 发 生 了 重大 变 
化 。 


可 是 ，Guido 讨厌 引入 新 关键 字 ， 而 且 觉 得 这 项 提议 没有 说 服 力 ， 
因此 我 们 只 好 被 迫 接 受 def 


沿用 函数 句法 定义 生成 喜 会 导致 几 个 不 好 的 后 果 。 在 Politz 等 人 发 

布 的 试验 成 果 论 文 “Python, the Full Monty: A Tested Semantics for the 

Python Programming Language”18 中 ， 有 个 简单 的 生成 器 函数 示例 
(这 篇 论文 的 4.1 节 ) : 


def f(): x=0 
while True: 
x += 1 


yield x 


然后 ， 论 文 的 作者 指出 ， 我 们 无 法 通过 函数 调用 抽象 产 出 这 个 过 程 
(如 示例 14-24 所 示 ) 。 


示例 14-24 “这样 ) 似乎 能 简单 地 抽象 产 出 这 个 过 
T (Politz 等 人 ) 


def f(): 
def do_yield(n): 
yield n 
x = 0 


while True: 
x += 1 
do_yield(x) 


如 果 调 用 示例 14-24 中 的 f()， 会 得 到 一 个 无 限 循 环 ， 而 不 是 生成 
a, AX yield 关键 字 只 能 把 最 近 的 外 层 函 数 变 成 生成 器 函数 。 
虽然 生成 器 函数 看 起 来 像 函 数 ， 可 是 我 们 不 能 通过 简单 的 函数 调用 
把 职责 委托 给 另 一 个 生成 器 函数 。 与 此 相 比 ，Lua 语言 就 没有 强加 
这 一 限制 。 在 Lua 中 ， 协 程 可 以 调用 其 他 函数 ， 而 且 其 中 任何 一 个 
函数 都 能 把 职责 交 给 原来 的 调用 方 。 


Python 新 引入 的 yield from 句法 允许 生成 器 或 协 程 把 工作 委托 给 
BAT TEM, ORRICK for 循环 作为 变通 了 。 在 函数 调用 前 
面 加 上 yield from 能 “解决 ”示例 14-24 中 的 问题 ， 如 示例 14-25 
所 示 。 


示例 14-25 这样 才 能 简单 地 抽象 产 出 这 个 过 程 


def f(): 
def do yield(n): 


yield n 
xX = 0 
while True: 
x += 1 
yield from do_yield(x) 


沿用 def 声明 生成 器 犯 了 可 用 性 方面 的 错误 ， 而 Python 2.5 引入 的 
协 程 (也 写成 包含 yield 关键 字 的 函数 ) 把 这 个 问题 进一步 恶化 
了 。 在 协 程 中 ，yield 人 碰巧 (通常) 出 现在 赋值 语句 的 右手 边 ， 
A yield 用 于 接收 客户 传 给 .send( ) 方法 的 参数 。 正 如 David 
Beazley 所 说 的 : 


oa 同 之 处 ， 但 是 生成 器 和 协 程 基本 上 是 两 个 不 同 的 


我 觉得 协 程 也 应 该 有 专用 的 关键 字 。 读 到 后 文 你 会 发 现 ， 协 程 经 第 
会 用 到 特殊 的 装饰 器 ， 这 样 就 能 与 其 他 的 函数 区 分 开 。 可 是 ， 生 成 
器 函数 不 种 使 用 装饰 器 ， 因 此 我 们 不 得 不 扫描 函数 的 定义 体 ， 看 有 
没有 yield 关键 字 ， 以 此 判断 它 完 竟 是 普通 的 函数 ， 还 是 完全 不 
同 的 洪水 猛兽 。 


也 许 有 人 会 说 ， 这 么 做 是 为 了 在 不 增加 人 句法 的 前 提 下 支持 这 些 特 
性 ， 即 便 添加 额外 的 句法 ， 也 只 是 “语法 糖 "。 可 是 ， 如 果 能 让 不 同 
的 特性 看 起 来 也 不 同 ， 那 么 我 更 喜欢 语法 糖 。Lisp 代码 难以 阅读 的 
主要 原因 就 是 缺少 语法 糖 ， 这 也 导致 Lisp 语言 中 的 所 有 结构 看 起 
来 都 像 是 函数 调用 。 


生成 器 与 迭代 器 的 语义 对 比 

Sia SEMA ZN KAN, BAUME AMA. 

第 一 方面 是 接口 。Python 的 迭代 器 协议 定义 了 两 个 方 

YE: _ next 和 iter  。 生 成 器 对 象 实现 了 这 两 个 方法 ， 
此 从 这 方面 来 看 ， 所 有 生成 器 都 是 欠 代 器 。 由 此 可 以 得 知 ， 内 置 的 
enumerate() 函数 创建 的 对 象 是 迭代 器 : 


>>> from collections import abc 
>>> e = enumerate('ABC') 


>>> isinstance(e, abc.Iterator) 
True 


第 二 方面 是 实现 方式 。 从 这 个 角度 来 看 ， 生 成 器 这 种 Python 语言 结 
构 可 以 使 用 两 种 方式 编写 : 含有 yield 关键 字 的 函数 ， 或 者 生成 
峰 表 达 式 。 调 用 生成 器 函数 或 者 执行 生成 器 表达 式 得 到 的 生成 吉 对 
象 属于 语言 内 部 的 GeneratorType 类 型 
(https://docs.python.org/3/library/types.html#types.GeneratorType) 。 
从 这 方面 来 看 ， 所 有 生成 器 都 是 迭代 器 ， 因 为 GeneratorType 类 
型 的 实例 实现 了 达 代 器 接口 。 不 过 ， 我 们 可 以 编写 不 是 生成 器 的 从 
Kars JRE SNA LIE Ca el, abil 14-4 所 示 ， 或 者 使 
用 C 语言 编写 扩展 。 从 这 方面 来 看 ，enumerate 对 象 不 是 生成 


H 


AN: 


>>> import types 
>>> e = enumerate('ABC') 


>>> isinstance(e, types.GeneratorType) 
False 


这 是 因为 types .GeneratorType 类 型 

Chttps://docs.python.org/3/library/types.html#types.GeneratorType) 是 
这 样 定 义 的 :“ 生 成 器 一 迭代 堪 对 象 的 类 型 ， 调 用 生成 器 函数 时 生 
成 。 ” 


第 三 方面 是 概念 。 根 据 《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 
一 书 的 定义 ， 在 典型 的 和 欠 代 器 设计 模式 中 ， 友 代 堪 用 于 过 有 历 集合 ， 
从 中 产 出 元 隶 。 友 代 器 可 能 相当 复杂 ， 例 如 ， 过 有 历 树 状 数据 结构 。 
但 是 ， 不 管 典 型 的 友 代 器 中 有 多 少 多 辑 ， 都 是 从 现 有 的 数据 源 中 读 
取 值 ， 而且， 调用 next(it) 时 ， 友 代 器 不 能 修改 从 数据 源 中 读 取 
的 值 ， 只 能 原封 不 动 地 产 出 值 。 


而 生成 器 可 能 无 需 遍 历 集 合 就 能 生成 值 ， 例 如 range 函数 。 即 便 
依附 了 集合 ， 生 成 器 不 仅 能 产 出 集合 中 的 元 素 ， 还 可 能 会 产 出 派生 
自 元 素 的 其 他 值 。enumerate HACER NPIS. HHI AS iT 
模式 的 原始 定义 ，enumerate 函数 返回 的 生成 器 不 是 迭代 器 ， 因 为 
创建 的 是 生成 器 产 出 的 元 组 。 


从 概念 方面 来 看 ， 实 现 方式 无 关 紧 要 。 不 使 用 Python 生成 器 对 象 也 
能 编写 生成 堪 。 为 了 表明 这 一 点 ， 我 写 了 一 个 斐 波 纳 契 数列 生成 
器 ， 如 示例 14-26 所 示 。 


示例 14-26 fibo by hand.py: 不 使 用 GeneratorType 实例 实 
BW SEY AN eB E eat 


class Fibonacci: 


def _iter_ (self): 
return FibonacciGenerator() 


class FibonacciGenerator: 


def _ init__(self): 


def _ next__(self): 
result = self.a 
self.a, self.b = self.b, self.a + self.b 
return result 


不 例 14-26 BAIT, BR -个 思春 的 示例 。 符 合 Python 风格 的 
斐 波 纳 契 数列 生成 器 如 下 所 示 : 


def fibonacci(): 
a, b=@0, 1 
while True: 


yield a 
a, b=b, a+b 


PR, AREH, AEH E aie E E 2a FD FBLA IS A Cer EE AIA ae 
SE, FAP LH ICR 


事实 上 ，Python 程序 员 不 会 严格 区 分 二 者 ， 即 便 在 官方 文档 中 也 把 
生成 器 称 作 迭代 器 。 Python 词汇 表 
(https://docs.python.org/dev/glossary.html#term-iterator) XJR áS F 
ARE MORES, W S KAREM E ai o 


SRA: 表示 数据 流 的 对 象 .…… 


建议 你 读 一 下 Python 词汇 表 中 对 迭代 顺 的 完整 定 

Chttps://docs.python.org/3/glossary.html#term-iterator n. 而 在 生成 器 
的 定义 中 Chttps://docs.python.org/3/glossary.html#term-generator ) ， 
迭代 器 和 生成 器 是 同义词 ,“ 生 成 器 ” 指 代 生成 器 冰 数 ， 以 及 生成 器 
函数 构建 的 生成 器 对 象 。 因 此 ， 在 Python 4k XAT, WEA AE AM 
生成 器 在 一 定 程度 上 是 同义词 。 


Python F i fi] WIE (hat Be O 


《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 迁 代 器 模式 
时 ， 在 “实现 ”一 节 中 说 道 : 


迭代 器 的 最 小 接口 由 First. Next. IsDone 和 Currentltem 操作 组 
成 。 


不 过 ， 这 句 话 有 个 脚注 : 


甚至 可 以 将 Next. IsDone 和 Currentltem 并 入 到 一 个 操作 中 ， 
该 操作 前 进 到 下 一 个 对 象 并 返回 这 个 对 象 ， 如 果 壳 历 结 束 ， 那 
么 这 个 操作 返回 一 个 特定 的 值 〈 例 如 ，0) 标志 该 迭代 结束 。 
这 样 我 们 就 使 这 个 接口 变 得 更 小 了 。 


这 与 Python 的 做 法 接近 : 只 用 一 个 _ next__ 方法 完成 这 项 工作 。 

不 过 ， 为 了 表明 迭代 结束 ， 这 个 方法 没有 使 用 哨 符 ， 因 为 哨 符 可 能 
不 小 心 被 忽略 ， 而 是 使 用 StopIteration 异常 。 简 单 且 正确 ， 这 
正 是 Python 之 道 。 


18Joe Gibbs Politz, Alejandro Martinez, Matthew Milano, Sumner Warren, Daniel Patterson, Junsong Li, 
Anand Chitipothu, and Shriram Krishnamurthi‘‘P ython: The Full Monty,’ SIGPLAN Not. 48, 10 (October 
2013), 217-232. 


194 Curious Course on Coroutines and 
Concurrency” Chttp://www.dabeaz.com/coroutines/Coroutines.pdf) ， 第 31 张 幻灯 片 。 


20 (it: 可 复 用 面向 对 象 软件 的 基础 》 第 174 页 。 


15m 上 和 下文 管理 器 和 else 块 


最 终 ， 上 下 文 管理 堪 可 能 几乎 与 子 程序 (subroutine) APE 
要 。 目 前 ,我们 只 了 解 了 上 下 文 管理 右 的 皮毛 ......Basic 语言 有 
with 语句 ， 而 且 很 多 语言 都 有 。 但 是 ， 在 各 种 语言 中 with 语句 的 
作用 不 同 ， 而 且 做 的 都 是 简单 的 事 ， 虽 然 可 以 避免 不 断 使 用 点 号 碍 
找 属 性 ， 但 是 不 会 做 事前 准备 和 事后 清理 。 不 要 觉得 名 字 一 样 ， 就 
意味 着 作用 也 一 样 。with 语句 是 非常 了 不 起 的 特性 。1 


Raymond Hettinger 
雄辩 的 Python 布道 者 


1 节选 自 PyCon US 2013 主题 演讲 “What Makes Python 
Awesome” (http://pyvideo.org/video/1669/keynote-3) ; 关于 with 的 部 分 从 23:00 开始 ， 到 26:15 
Z | 


结束 。 


本 章 讨 论 其 他 语言 中 不 种 见 的 一 些 流程 控制 特性 ， 正 因 如 此 ，Python 用 
户 往往 会 忽视 或 没有 充分 使 用 这 些 特 性 。 下 面 要 讨论 的 特性 有 : 

e with 语句 和 上 下 文 管理 器 

e for, while 和 try 语句 的 else 子 句 
with 语句 会 设置 一 个 临时 的 上 下 文 ， 交 给 上 下 文 管理 器 对 象 控 制 ， 并 
日 负 责 清理 上 下 文 。 这 么 做 能 避免 错误 并 减少 样板 代码 ， 因 此 API 更 安 
A 而 且 更 易于 使 用 。 除 了 自动 关闭 文件 之 外 ，with 块 还 有 很 多 用 
else 子 句 与 with 语句 完全 没有 关系 。 可 是 已 经 写 到 第 五 部 分 了 ， 我 找 
不 到 其 他 地 方 介 绍 else， 又 不 能 单 写 只 有 一 页 内 容 的 一 章 ， 因 此 就 在 
这 一 章 讨 论 丁 ， 


下 面 从 这 个 较 小 的 话题 开始 ， 进 入 本 章 的 实质 内 容 。 


15.1 ”人 先 做 这 个 ， 再 做 那个 : if 语 句 之 外 
Hjelse 块 


这 个 语言 特性 不 是 什么 秘密 ， 但 却 没 有 得 到 重视 : else 子 句 不 仅 能 在 
if 语句 中 使 用 ， 还 能 在 for. while 和 try 语句 中 使 用 。 
for/else、while/else fil try/else 的 语义 关系 紧密 ， 不 过 与 
if/else 差别 很 大 。 起 初 ，else 这 个 单词 的 意思 阻碍 了 我 对 这 些 特 性 
的 理解 ， 但 是 最 终 我 习惯 了 。 


else 子 句 的 行为 如 下 。 


for 

仅 当 for 循环 运行 完毕 时 〈 即 for 循环 没有 被 break 语句 中 止 ) 
才 运 行 else 块 。 
while 


仅 当 while 循环 因为 条 件 为 假 值 而 退出 时 〈 即 while 循环 没有 被 
break 语句 中 止 ) 才 运 行 else 块 。 


try 


M4 try BAA RUIN Wier else 块 。 官 方 文档 
Chttps://docs.python.org/3/reference/compound_stmts.html) 还 指 
H: “else 子 句 抛 出 的 异常 不 会 由 前 面 的 except 子 句 处 理 。” 


在 所 有 情况 下 ， 如 果 异 常 或 者 return, break BK continue 语句 导致 
控制 权 跳 到 了 复合 语句 的 主 块 之 外 ，else 子 句 也 会 被 跳 过 。 


和 我 觉得 除了 AF 语句 之 外 ， 其 他 语句 选择 使 用 else KET 
‘Milk. else 强 含 着 “排他 性 ”这 层 意思 ， 例 如 "要么 运行 这 个 循 
环 ， 要 么 做 那 件 事 ”。 可 是 ， 在 循环 中 ，else 的 语义 恰好 相 


反 :“ 运 行 这 个 循环 ， 然 后 做 那 件 事 。” 因 此 ， 使 用 then 关键 字 更 
Wo then 在 try 语句 的 上 下 文中 也 说 得 通 :“ 尝 试 运行 这 个 ， 然 后 
做 那 件 事 。” 可 是 ， 添 加 新 关键 字 属 于 语言 的 重大 变化 ， 而 Guido 
HEREZ JN Xo 


在 这 些 语句 中 使 用 else 子 句 通常 能 让 代码 更 易于 阅读 ， 而 且 能 省 去 一 
些 麻 烦 ， 不 用 设置 控制 标 总 或 者 添加 额外 的 if 语句 。 


在 循环 中 使 用 else 子 句 的 方式 如 下 述 代码 片段 所 未 : 


for item in my_list: 
if item.flavor == 'banana': 
break 


else: 
raise ValueError('No banana flavor found!') 


一 开始 ， 你 可 能 觉得 没 必要 在 try/except 块 中 使 用 else fH). HE 
竟 ， 在 下 述 代 码 片 段 中 ， 只 有 dangerous_call() Sihh 
tm, after_call() AAT, IE? 


try: 
dangerous_call() 
after_call() 
except OSError: 
log('OSError...') 


Skil, after_call() 不 应 该 放 在 try 块 中 。 为 了 清晰 和 准确 ，try 块 
中 应 该 只 抛 出 预期 异常 的 语句 。 因 此 ， 像 下 面 这 样 写 更 好 : 


try: 
dangerous_call() 
except OSError: 


log('OSError...') 
else: 
after_call() 


现在 很 明确 ，try 块 防守 的 是 dangerous_call() 可 能 出 现 的 错误 ， 而 


不 是 after_call()。 而 且 很 明显 ， 只 有 try 块 不 抛 出 异常 ， 才 会 执行 
after_call(). 


在 Python 'F, try/except 不 仅 用 于 处 理 错误 ， 还 第 用 于 控制 流程 。 为 
此 ，Python 官方 词汇 表 Chttps://docs.python.org/3/glossary.html#term- 
eafp) 还 定义 了 一 个 缩 略 词 COS) 。 


EAFP 


取得 原谅 比 获 得 许可 容易 (easier to ask for forgiveness than 
permission) 。 这 是 一 种 第 见 的 Python 编程 风格 ， 先 假定 存在 有 效 
的 键 或 属性 ， 如 果 假 定 不 成 立 ， 那 么 捕获 异常 。 这 种 风格 简单 明 
快 ， 特 点 是 代码 中 有 很 多 try 和 except 语句 。 与 其 他 很 多 语言 一 
样 〈 如 C 语言 ) ， 这 种 风格 的 对 立 面 是 LBYL 风格 。 


接 下 来 ， 词 汇 表 定义 了 LBYL. 
LBYL 


三 思 而 后 行 Cook before you leap) 。 这 种 编程 风格 在 调用 函数 
或 查找 属性 或 键 之 前 显 式 测试 前 提 条 件 。 与 EAFP 风格 相反 ， 这 种 
风格 的 特点 是 代码 中 有 很 多 if 语句 。 在 多 线程 环境 中 ，LBYL 风 
格 可 能 会 在 “检查 ”和 “行事 ”的 空当 引入 条 件 竞 和 争 。 例 如 ， 对 if 
key in mapping: return mapping[key] 这 段 代 码 来 说 ， 如 果 
在 测试 之 后 ， 但 在 得 找 之 前 ， 另 一 个 线程 从 映射 中 删除 了 那个 键 ， 
a 这 个 问题 可 以 使 用 锁 或 者 EAFP 风格 解 
Wo 


如 果 选 择 使 用 EAFP 风格 ， 那 就 要 更 深入 地 了 解 else 子 句 ， 并 在 
try/except 语句 中 合理 使 用 。 


下 面 探讨 本 章 的 主要 话题 : 强大 的 with 语句 。 


15.2 ”上 下 文 管 理 器 和 with 块 


上 下 文 管理 器 对 象 存在 的 目的 是 管理 with if, WAEREA E 
为 了 管理 for 语句 一 样 。 


with 语句 的 目的 是 简化 try/finally 模式 。 这 种 模式 用 于 保证 一 段 代 
码 运行 完毕 后 执行 某 项 操作 ， 即 便 那 段 代码 由 于 异常 、return 语句 或 
sys.exit() 调用 而 中 止 ， 也 会 执行 指定 的 操作 。final1ly 子 句 中 的 代 
码 通 常用 于 释放 重要 的 资源 ， 或 者 还 原 临 时 变更 的 状态 。 


上 下 文 管理 器 协议 包含 ”enter 和 exit _ 两 个 方法 。with 语句 
开始 运行 时 ， 会 在 上 下 文 管理 器 对 象 上 调用 enter _ 方法 。with 语 
句 运 行 结 束 后 ， 会 在 上 下 文 管理 器 对 象 上 调用 ”exit _ 方法 ， 以 此 扮 
演 finally 子 句 的 角色 。 


最 常见 的 例子 是 确保 关闭 文件 对 象 。 使 用 with 语句 关闭 文件 的 详细 说 
明 参 见 示 例 15-1。 


示例 15-1 演示 把 文件 对 象 当 成 上 下 文 管理 器 使 用 


>>> with open('mirror.py') as fp: # © 
ae src = fp.read(60) #@ 


>>> len(src) 
60 
>> fp #0 
<_io.TextIOWrapper name='mirror.py' mode='r' encoding='UTF-8'> 
>>> fp.closed, fp.encoding # @ 
(True, 'UTF-8') 
>>> fp.read(60) # O 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: I/O operation on closed file. 


@ fp 绑 定 到 打开 的 文件 上 ， 因 为 文件 的 __enter _ 方法 返回 self. 
四 从 fp 中 读 取 一 些 数据 。 


© fp 变量 仍然 可 用 。” 


“与 函数 和 模块 不 同 ，with 块 没 有 定义 新 的 作用 域 。 


O 可 以 读 取 fp 对 象 的 属性 。 


O 但 是 不 能 在 fp 上 执行 IO 操作 ， 因 为 在 with 块 的 末尾 ， 调 用 
TextIOWrapper. exit ”方法 把 文件 关闭 了 。 


示例 15-1 中 标注 @ 的 那 行 代码 道 出 了 不 易 察 觉 但 很 重要 的 一 点 : 执行 
with 后 面 的 表达 式 得 到 的 结果 是 上 下 文 管理 器 对 象 ， 不 过 ， 把 值 绑 定 
到 目标 变量 上 Cas 子 句 ) EE RCH HAR EVA enter _ 方 
法 的 结果 。 


WII, IR 15-1 中 的 open() 函数 返回 TextIOWrapper 类 的 实例 ， 而 
该 实例 的 “enter_ _ 方法 返回 self。 不 过 ， ”enter _ 方法 除了 返回 
上 下 文 管理 器 之 外 ， 还 可 能 返回 其 他 对 象 。 


不 管控 制 流程 以 哪 种 方式 退出 with 块 ， 都 会 在 上 下 文 管理 器 对 象 上 调 
用 _ exit 方法 ， 而 不 是 在 __enter _ 方法 返回 的 对 象 上 调用 。 
with 语句 的 as 子 句 是 可 选 的 。 对 open 函数 来 说 ， 必 须 加 上 as T 
人 句 ， 以 便 获取 文件 的 引用 。 不 过 ， 有 些 上 下 文 管理 器 会 返回 None, 
为 没什么 有 用 的 对 象 能 提供 给 用 户 。 


示例 15-2 使 用 一 个 精心 制作 的 上 下 文 管理 器 执行 操作 ， 以 此 强调 上 下 
Meas enter _ 方法 返回 的 对 象 之 间 的 区 别 。 


示例 15-2 测试 LookingGlass 上 下 文 管理 器 类 


>>> from mirror import LookingGlass 

>>> with LookingGlass() as what: @ 
print('Alice, Kitty and Snowdrop') @ 
print (what) 


pordwons dna yttik ,ecilA © 
YKCOWREBBAJ 

>>> what @ 

"JABBERWOCKY ' 


>>> print('Back to normal.') © 
Back to normal. 
@ 上 下 文 管理 器 是 LookingGlass 类 的 实例 ，Python 在 上 下 文 管理 器 
上 调用 enter _ 方法 ， 把 返回 结果 绑 定 到 what 上 。 
O 打印 一 个 字符 串 ， 然 后 打印 what 变量 的 值 。 
全 打印 出 的 内 容 是 反问 的 。 


OME, with 块 已 经 执行 完毕 。 可 以 看 出 ， enter _ 方法 返回 的 值 
一 一 即 存储 在 what 变量 中 的 值 一 一 是 字符 串 ' JABBERWOCKY'。 


O 输出 不 再 是 有 反 向 的 了 。 
示例 15-3 是 LookingGlass 类 的 实现 。 
示例 15-3 mirror.py: LookingGlass 上 下 文 管理 器 类 的 代码 


class LookingGlass: 


def _enter_ (self): © 
import sys 
self.original write = sys.stdout.write @ 
sys.stdout.write = self.reverse write © 
return 'JABBERWOCKY' @ 


reverse write(self, text): © 
self.original write(text[::-1]) 


__exit__(self, exc_type, exc_value, traceback): © 
import sys @ 
sys.stdout.write = self.original write © 
if exc_type is ZeroDivisionError: © 
print('Please DO NOT divide by zero!') 
return True 四 


OY self 24, Python HH enter _ 方法 时 不 传 入 其 他 参数 。 
© 把 原来 的 sys .stdout.write 方法 保存 在 一 个 实例 属性 中 ， 供 后 面 


使 用 。 
© W sys.stdout.write 打 猴 子 补丁 ， 蔡 换 成 自己 编写 的 方法 。 
四 返回 'JABBERWOCKY' 字符 串 ， 这 样 才 有 内 容 存 入 目标 变量 what. 


O 这 是 用 于 取代 sys.stdout.write 的 方法 ， 把 text 参数 的 内 容 反 
转 ， 然 后 调用 原来 的 实现 。 


O 如 果 一 切 正常 ，Python 调用 exit__ 方法 时 传 入 的 参数 是 None, 
None, None; 如 果 抛 出 了 异常 ， 这 三 个 参数 是 异常 数据 ， 如 下 所 述 。 


O 重复 导入 模块 不 会 消耗 很 多 资源 ， 因 为 Python 会 缓存 导入 的 模块 。 
@ 还 原 成 原来 的 sys.stdout .write 方法 。 

O 如 果 有 异常 ， 而 且 是 ZeroDivisionError 类 型 ， 打 印 一 个 消息 .……. 
O ..... RIK True， 告 诉 解释 器 ， 异 常 已 经 处 理 了 。 


D uR exit 方法 返回 None， 或 者 True 之 外 的 值 ，with 块 中 的 
任何 异常 都 会 向 上 冒 泡 。 


A 在 实际 使 用 中 ， 如 果 应 用 程序 接管 了 标准 输出 ， 可 能 会 暂时 

把 sys. stdout 换 成 类 似 文件 的 其 他 对 象 ， 然 后 再 切换 成 原来 的 版 

A. contextlib.redirect_stdout 上 下 文 管理 器 
(https://docs.python.org/3/library/contextlib.html#contextlib.redirect_ stdov 

就 是 这 么 做 的 : 只 需 传 入 类 似 文 件 的 对 象 ， 用 于 蔡 代 

sys.stdout. 


解释 器 调用 enter Wiki, RIEAN self 之 外 ， 不 会 传 入 任何 
参数 。 传 给 ”exit _ 方法 的 三 个 参数 列举 如 下 。 


exc_type 


异常 类 〈 例 如 ZeroDivisionError) 。 


exc_value 


FH Lp. ANSABA AH EEDA, PIII, mee 
参数 可 以 使 用 exc_value.args 获取 。 


traceback 
traceback 对 象 。3 


3 在 try/finally 语句 的 finally 块 中 调用 sys.exc_info() 
Chttps://docs.python. org/3/library/sys.html#sys.exc_info) ， 得 到 的 就 是 exit _ 接收 的 这 三 个 参 


数 。 鉴 于 with 语句 是 为 了 取代 大 多 数 try/finally 语句 ， 而 且 通 常 需要 调 
sys.exc_info() 来 判断 做 什么 清理 操作 ， 这 种 行为 是 合理 的 。 


上 下 文 管理 器 的 具体 工作 方式 参见 示例 15-4。 在 这 个 示例 中 ， 我 们 在 
with 块 之 外 使 用 LookingGlass 类 ， 因 此 可 以 手动 调用 _enter_ 和 
”exit Wik. 


示例 15-4 在 with 块 之 外 使 用 LookingGlass 类 


>>> from mirror import LookingGlass 

>>> manager = LookingGlass() @ 

>>> manager 

<mirror.LookingGlass object at @x2a578ac> 
>>> monster = manager. enter () @ 

>>> monster == 'JABBERWOCKY' © 

eurT 


>>> monster 
"YKCOWREBBAJ ' 


>>> manager 

>ca875a2x@ ta tcejbo ssalGgnikooL.rorrim< 
>>> manager. exit (None, None, None) @ 
>>> monster 

"JABBERWOCKY ' 


@ 实例 化 并 审查 manager 实例 。 


@ 在 上 下 文 管理 器 上 调用 ”enter () 方 法， 把 结果 存储 在 monster 
中 。 


® monster 的 值 是 字符 串 'JABBERWOCKY' 。 打 印 出 的 True 标识 符 是 


反 回 的 ， 因 为 stdout 的 所 有 输出 都 经过 enter ”方法 中 打 补 丁 的 
write 方法 处 理 。 


@ 调用 manager. exit ， 还 原 成 之 前 的 stdout .write。 


上 下 文 管理 器 是 相当 新 颗 的 特性 ，Python 社区 肯定 还 在 不 断 寻 找 新 的 创 
意 用 法 。 标 准 库 中 有 一 些 示 例 。 


€ sqlite3 模块 中 用 于 管理 事务 ， 参 见 “12.6.7.3. Using the 
connection as a context 

manager” Chttps://docs.python.org/3/library/sqlite3.html#using-the- 
comnection-as-a-context-manager) 。 4 


在 threading 模块 中 用 于 维护 锁 、 条 件 和 信和 号， 参见 “17.1.10. 
Using locks, conditions, and semaphores in the with 

statement” Chttps://docs.python.org/3/library/threading. html#using-locks- 
conditions-and-semaphores-in-the-with-statement) 。 


A Decimal 对 象 的 算术 运算 设置 环境 ， 参 见 
decimal.localcontext 函数 的 文档 
Chttps://docs.python.org/3/library/decimal.html#decimal.localcontext) < 


为 了 测试 临时 给 对 象 打 补 本 ， 参 见 unittest .mock.patch 函数 的 
文档 Chttps://docs.python.org/3/library/unittest.mock.html#patch) 。 


4 在 Python 3.5 文档 中 是 “12.6.8.3”。 一 一 编者 注 


标准 库 中 还 有 个 contextlib 模块 ， 提 供 一 些 实用 工具 ， 参 见 下 一 节 。 


15.3 ”context1lib 模 块 中 的 实用 工具 


目 己 定义 上 下 文 管理 器 类 之 前 ， 先 看 一 下 Python 标准 库 文档 中 的 “29.6 
contextlib — Utilities for with-statement 

contexts” Chttps://docs.python.org/3/library/contextlib.html) 。 除 了 前 面 提 
到 的 redirect_stdout 函数 ，context1lib 模块 中 还 有 一 些 类 和 其 他 
函数 ， 使 用 范围 更 广 。 


closing 


如 果 对 象 提供 了 close() 方法 ， 但 没有 实现 
__enter_/__exit__ 协议 ， 那 么 可 以 使 用 这 个 函数 构建 上 下 文 管理 
Ai 0 


suppress 
ed SE Ii IY AS Tia E AE BC Bao 
@contextmanager 
XAR a Ti] FAY AE a at PR E PAE Ba» CPE a AN A E 
建 类 去 实现 管理 器 协议 了 。 
ContextDecorator 


这 是 个 基 类 ， 用 于 定义 基于 类 的 上 下 文 管理 器 。 这 种 上 下 文 管理 器 
也 能 用 于 装饰 函数 ， 在 受 管理 的 上 下 文中 运行 整个 函数 。 


ExitStack 


这 个 上 下 文 管理 器 能 进入 多 个 上 下 文 管理 器 。with 块 结束 
I, ExitStack 按照 后 进 先 出 的 顺序 调用 栈 中 各 个 上 下 文 管理 器 的 
exit 方法。 如 果 事 先 不 知道 with 块 要 进入 多 少 个 上 下 文 管理 
可 以 使 用 这 个 类 。 例 如 ， 同 时 打开 任意 一 个 文件 列表 中 的 所 有 文 


显然 ， 在 这 些 实用 工具 中 ， 使 用 最 广泛 的 是 @contextmanager 装饰 
器 ， 因 此 要 格外 留心 。 这 个 装饰 器 也 有 迷惑 人 的 一 面 ， 因 为 它 与 迭代 无 
关 ， 却 要 使 用 yield 语句 。 由 此 可 以 引出 协 程 ， 这 是 下 一 章 的 主题 。 


15.4 ”使 用 @contextmanager 


@contextmanager 装饰 器 能 减少 创建 上 下 文 管理 器 的 样板 代码 量 ， 
为 不 用 编写 一 个 完整 的 类 ， 定义 enter 和 exit Wek, MR 

需 实现 有 一 个 yield 语句 的 生成 器 ， 生 成 想 让 enter 方法 返回 的 
值 。 


在 使 用 @contextmanager 装饰 的 生成 器 中 ，yield 语句 的 作用 是 把 函 
数 的 定义 体 分 成 两 部 分 : yield 语句 前 面 的 所 有 代码 在 with 块 开 始 时 

( 即 解 释 器 调用 enter _ 方法 时 ) FUT, yield 语句 后 面 的 代码 在 
with 块 结束 时 〈( 即 调用 exit _ 方法 时 ) 执行 。 


下 面 举 个 例子 。 示 例 15-5 使 用 一 个 生成 器 函数 代 蔡 示例 15-3 中 定义 的 
LookingGlass 28. 


示例 15-5 mirror_gen.py: (HAA Aas KME TFE ee as 


import contextlib 


@contextlib.contextmanager @ 
def looking glass(): 
import sys 
original write = sys.stdout.write @ 


def reverse write(text): © 
original _write(text[::-1]) 


sys.stdout.write = reverse write @ 
yield ‘JABBERWOCKY’ 
sys.stdout.write = original write © 


@ 应 用 contextmanager 装饰 器 。 
四 贮存 原来 的 sys.stdout .write 方法 。 
© 定义 自 定义 的 reverse_write MM: 在 闭 包 中 可 以 访问 


original write. 
@ iE sys.stdout.write 蔡 换 成 reverse write. 


@ 产 出 一 个 值 ， 这 个 值 会 绑 定 到 with 语句 中 as 子 句 的 目标 变量 上 。 
执行 with 块 中 的 代码 时 ， 这 个 函数 会 在 这 一 点 暂停 。 


O 控制 权 一 旦 跳出 with 块 ， 继 续 执 行 yield 语句 之 后 的 代码 ; 这 里 是 
恢复 成 原来 的 sys. stdout .write 方法 。 


示例 15-6 是 使 用 looking_glass 函数 的 例子 。 
示例 15-6 测试 looking glass 上 下 文 管理 器 函数 


>>> from mirror gen import looking glass 

>>> with looking glass() as what: @ 
print('Alice, Kitty and Snowdrop’ ) 
print (what) 


pordwonS dna yttik ,ecilA 
YKCOWREBBAJ 

>>> what 

"JABBERWOCKY ' 


O 与 示例 15-2 唯一 的 区 别 是 上 下 文 管理 器 的 名 字 : LookingGlass & 
成 了 looking glass. 


其 实 ，context1lib.contextmanager 装饰 器 会 把 函数 包装 成 实现 
enter 和 exit 方法 的 类 。5 


5 类 的 名 称 是 _GeneratorContextManager。 如 果 想 了 解 具 体 的 工作 方式 ， 可 以 阅读 Python 3.4 
发 行 版 中 Lib/contextlib.py 文件 里 的 源码 
(https://hg.python.org/cpython/file/3.4/Lib/contextlib.py#B4) o 


这 个 类 的 enter _ 方法 有 如 下 作用 。 
(1) 调用 生成 器 函数 ， 保 存 生成 器 对 象 〈 这 里 把 它 称 为 gen) 。 
(2) 调用 next(gen)， 执 行 到 yield 关键 字 所 在 的 位 置 。 


(3) 返回 next(gen) 产 出 的 值 ， 以 便 把 产 出 的 值 绑 定 到 with/as 语句 
中 的 目标 变量 上 。 


with 块 终止 时 ， exit _ 方法 会 做 以 下 几 件 事 。 


(1) 检查 有 没有 把 异常 传 给 exc_type; 如 果 有 ， 调 用 
gen.throw(exception)， 在 生成 器 函数 定义 体 中 包含 yield 关键 字 
的 那 一 行 抛 出 异常 。 


(2) 否则 ， 调 用 next(gen)， 继 续 执行 生成 器 函数 定义 体 中 yield 语句 
之 后 的 代码 。 


示例 15-5 有 一 个 严重 的 错误 : 如 果 在 with Redo Se, Python 解 
释 器 会 将 其 捕获 ， 然 后 在 looking glass MAH yield 表达 式 里 再 次 
抛 出 。 但 是 ， 那 里 没有 处 理 错误 的 代码 ， 因 此 looking glass 函数 会 
中 止 ， 永 远 无 法 恢复 成 原来 的 sys.stdout .write 方法 ， 导 致 系统 处 
于 无 效 状 态 。 


示例 15-7 添加 了 一 些 代码 ， 特 别 用 于 处 理 ZeroDivisionError 异常 ; 
这 样 ， 在 功能 上 它 就 与 示例 15-3 中 基于 类 的 实现 等 效 了 。 


示例 15-7 mirror_gen exc.py: 基于 生成 器 的 上 下 文 管理 器 ， 而 且 
实现 了 异常 处 理 一 一 从 外 部 看 ， 行 为 与 示例 15-3 一 样 


import contextlib 


@contextlib. contextmanager 
def looking glass(): 
import sys 
original_write = sys.stdout.write 


def reverse _write(text): 
original _write(text[::-1]) 


sys.stdout.write = reverse _write 
msg = '' 
try: 
yield 'JABBERWOCKY' 
except ZeroDivisionError: @ 
msg = ‘Please DO NOT divide by zero!' 


finally: 
sys.stdout.write = original write © 
if msg: 
print(msg) @ 


@ 创建 一 个 变量 ， 用 于 保存 可 能 出 现 的 错误 消息 ;与 示例 15-5 相 比 ， 
这 是 第 一 处 改动 。 


© 处 理 ZeroDivisionError 异常 ， 设 置 一 个 错误 消息 。 
© 撤销 对 sys.stdout .write 方法 所 做 的 猴子 补丁 。 
O 如 果 设 置 了 错误 消息 ， 把 它 打 印 出 来 。 


前 面 说 过 ， 为 了 告诉 解释 器 异常 已 经 处 理 了 ，_ exit ”方法 会 返回 
True， 此 时 解释 器 会 压制 异常 。 如 果 exit _ 方法 没有 显 式 返回 一 个 
值 ， 那 么 解释 器 得 到 的 是 None， 然 后 向 上 冒 泡 异 常 。 使 用 
@contextmanager 装饰 器 时 ， 默 认 的 行为 是 相反 的 : 装饰 器 提供 的 

_ exit _ 方法 假定 发 给 生成 器 的 所 有 异常 都 得 到 处 理 了 ， 因 此 应 该 压 
制 异常 。6 如 果 不 想 让 @contextmanager 压制 异常 ， 必 须 在 被 装饰 的 
函数 中 显 式 重 新 抛 出 异常 。 


6 把 异常 发 给 生成 器 的 方式 是 使 用 throw 方法 ， 参 见 16.5 节 。 


7 这 样 约定 的 原因 是 ， 创 建 上 下 文 管理 器 时 ， 生 成 器 无 法 返回 值 ， 只 能 产 出 值 。 不 过 ， 现 在 可 
以 返回 值 了 ， 如 16.6 节 所 述 。 届 时 你 会 看 到 ， 如 果 在 生成 器 中 返回 值 ， 那 么 会 抛 出 异常 。 


a 使 用 @contextmanager 装饰 器 时 ， 要 把 yield 语句 放 在 
try/finally 语句 中 (或 者 放 在 with 语句 中 ) ， 这 是 无 法 避免 
的 ， 因为 我 们 永远 个 知道 上 下 文 管理 器 的 用 户 会 在 with 块 中 做 什 
Z o 


8 这 条 提示 直接 引用 Leonardo Rochael 的 评论 ， 他 是 本 书 的 技术 审 校 之 一 。 说 得 好 ，Leo ! 


除了 标准 库 中 举 的 例子 之 外 ，Martijn Pieters 实现 的 原 地 文件 重 写 上 下 文 
管理 右 Chttp://www.zopatista.com/python/2013/11/26/inplace-file- 


rewriting’) 是 @contextmanager 不 错 的 使 用 实例 。 用 法 如 示例 15-8 所 
示 。 


示例 15-8 ”用 于 原 地 重 写 文 件 的 上 下 文 管理 需 


import csv 


with inplace(csvfilename, 'r', newline='') as (infh, outfh): 
reader = csv.reader(infh) 
writer = csv.writer(outfh) 


for row in reader: 
row += ['new', ‘columns’ ] 
writer .writerow(row) 


inplace 函数 是 个 上 下 文 管理 器 ， 为 同一 个 文件 提供 了 两 个 句柄 〈 这 个 
示例 中 的 infh 和 outfh) ， 以 便 同 时 读 写 同一 个 文件 。 这 比 标准 库 中 
的 fileinput.input 函数 

Chttps://docs.python.org/3/library/fileinput.html#fileinput.input; 顺便 说 一 
下 ， 这 个 函数 也 提供 了 一 个 上 下 文 管理 器 〉 易 于 使 用 。 


如 果 想 学 习 Martijn 实现 inplace 的 源码 ( 列 在 这 篇 文章 

中 : http://www.zopatista.com/python/2013/11/26/inplace-file-rewriting/) , 
找到 yield 关键 字 ， 在 此 之 前 的 所 有 代码 都 用 于 设置 上 下 文 : 先 创建 
备份 文件 ， 然 后 打开 并 产 出 enter__ 方法 返回 的 可 读 和 可 写 文件 句 
WA H. yield 关键 字 之 后 的 __exit__ 处理 过 程 把 文件 句柄 关闭 ; 
如 果 什 么 地 方 出 错 了 ， 那 么 从 备份 中 恢复 文件 。 


注意 ， 在 @contextmanager 装饰 器 装饰 的 生成 占 中 ，yield Bike 
有 任何 关系 。 在 本 节 所 举 的 示例 中 ， 生 成 器 函数 的 作用 更 像 是 协 程 : 执 
行 到 某 一 点 时 暂停 ， 让 客户 代码 运行 ， 直 到 客户 让 协 程 继 续 做 事 。 第 
16 章 会 全 面 讨论 协 程 。 


15.5 ”本章 小 结 


本 章 从 简单 的 话题 入 手 ， 先 讨论 了 for、while 和 try 语句 的 else 子 
Ajo ARAR else 子 句 在 这 些 语句 中 的 奇怪 意思 之 后 ， 我 相信 else 
能 阐明 你 的 意图 。 


然后 ， 本 章 讨论 了 上 下 文 管理 器 和 with 语句 的 作用 。 很 快 我 们 就 知 
道 ， 除 了 自动 关闭 打开 的 文件 之 外 ，with AA Re Hig. BNA 
己 动手 实现 了 一 个 上 下 文 管理 器 一 一 含有 __enter /exit _ 方法 
的 LookingGlass 类 ， 说 明了 如 何在 __exit_ 方法 中 人 处理 异常 。 
Raymond Hettinger 在 PyCon US 2013 上 所 做 的 主题 演讲 传达 了 一 个 重要 
的 观点 : with 不 仪 能 管理 资源 ， 还 能 用 于 去 挥 常规 的 设置 和 清理 代 
码 ， 或 者 在 另 一 个 过 程 前 后 执行 的 操作 (“What Makes Python 
Awesome?”， 第 21 张 幻灯 片 ，https://speakerdeck.com/pyconslides/pycon- 
keynote-python-is-awesome-by-raymond-hettinger?slide=21) 。 


最 后 ， 我 们 分 析 了 标准 库 中 contextlib 模块 里 的 函数 。 其 

中 ，@contextmanager 装饰 器 能 把 包含 一 个 yield 语句 的 简单 生成 器 
变 成 上 下 文 管理 器 一 一 这 比 定义 一 个 至 少 包 含 两 个 方法 的 类 要 更 简洁 。 
我 们 使 用 looking glass 生成 器 函数 实现 了 LookingGlass 类 ， 还 讨 
论 了 使 用 @contextmanager 时 如 何 处 理 异 常 。 


@contextmanager 泌 饰 器 优雅 且 实 用 ， 把 三 个 不 同 的 Python 特性 结合 
到 了 一 起 : 函数 装饰 器 、 生 成 器 和 with 语句 。 


15.6 ”延伸 阅读 


Python 语言 参考 手册 中 的 “8. Compound statements” 一 章 

(https://docs.python.org/3/reference/compound_stmts.html) 全面 说 明了 
if, for, while 和 try 语句 的 else 子 句 。 关 于 try/except 语句 

(A else TEJ REKA) 是 人 否 符合 Python 风格 ，Raymond Hettinger 
在 Stack Overflow 中 对 “Js it a good practice to use try-except-else in 
Python2” 这 一 问题 Chttp://stackoverflow.com/questions/16138232/is-it-a- 
good-practice-to-use-try-except-else-in-python) 做 了 精彩 的 回答 。 在 Alex 
Martelli 写 的 《Python 技术 手册 (第 2 版》 一 书 中 ， 有 一 章 是 关于 异 
党 的 ， 那 一 章 极 好 地 讨论 了 EAFP 风格 。Alex 认为 “取得 原谅 比 获 得 许 
可 容易 ”是 由 计算 领域 的 先驱 Grace Hopper 首先 提出 的 。 


在 Python 标准 库 文档 中 ，“4. Built-in Types” 一 章 中 有 一 节 专 门 说 明了 上 
下 文 管理 器 的 类 型 
(https://docs.python.org/3/library/stdtypes.html#typecontextmanager ) 。 
Python 语言 参考 手册 中 还 有 enter / exit _ 两 个 特殊 方法 的 文 
档 ， 在 “3.3.8. With Statement Context Managers” 一 节 中 
(https://docs.python.org/3/reference/datamodel.html#with-statement-context- 
managers) 。 上 下 文 管理 器 在 “PEP 343 一 
The‘with’ Statement” Chttps://www.python.org/dev/peps/pep-0343/) 中 引 
入 。 这 份 PEP A aise, Aye es ME EE a Pa, DA Be mt tl 
提案 。 这 就 是 PEP 的 特点 。 


在 PyCon US 2013 的 主题 演讲 中 ，Raymond Hettinger 强调 ，with 语句 
是 “这 门 语言 的 一 项 迷人 特性 ”。 在 这 次 大 会 上 的 “Transforming Code into 
Beautiful, Idiomatic Python 演讲 中 

(https://speakerdeck.com/pyconslides/transforming-code-into-beautiful- 
idiomatic-python-by-raymond-hettinger-1?slide=34) ， 他 还 展示 了 上 下 文 
管理 器 的 几 个 有 趣 应 用 。 


Jeff Preshing 写 的 一 篇 博客 文章 很 有 趣 ， 题 为 “The Python with Statement 
by Example” Chttp://preshing.com/20110920/the-python-with-statement-by- 
example/) ， 他 举例 说 明了 pycairo 图 形 库 中 的 上 下 文 管理 器 。 


Beazley 与 Jones 在 他 们 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 
中 ， 发 明了 上 下 文 管理 器 的 独特 用 途 。“8.3 让 对 象 文 持 上 下 文 管理 协 
议 ” 一 节 实 现 了 一 个 LazyConnection 类 ， 它 的 实例 是 上 下 文 管理 器 ， 
在 with 块 中 能 自动 打开 和 关闭 网 络 连 接 。 9.22 以 简单 的 方式 定义 上 下 
文 管理 喜 ” 一 节 编 写 了 一 个 用 于 统计 代码 运行 时 间 的 上 下 文 管理 器 ， 还 
编写 了 一 个 使 用 事务 修改 list 对 象 的 上 下 文 管理 器 : 在 with 块 中 创 
建 list 实例 的 副本 ， 所 有 改动 都 针对 那个 副本 ; 仅 当 with 块 没 有 抛 
en 
巧妙 。 


SIR 


发 


取出 面包 


在 PyCon US 2013 的 主题 演讲 “What Makes Python Awesome”? 

(http://pyvideo.org/video/1669/keynote-3) , Raymond Hettinger 说 他 
第 一 次 看 到 with 语句 的 提案 时 ， 沉 得 “有 点 临 涩 难 懂 ”。 这 和 我 一 
开始 的 反应 类 似 。PEP 通常 难以 阅读 ，PEP 343 尤其 如 此 。 


然后 ，Hettinger 告诉 我 们 ， 他 认识 到 在 计算 机 语言 的 发 展 历程 中 ， 
子 程序 是 最 重要 的 发 明 。 如 果 有 一 系列 操作 ， 如 A-B-C 和 了 -B-Q， 
那么 可 以 把 B 拿 出 来 ， 变 成 子 程序 。 这 就 好 比 把 三 明治 的 馅 儿 取出 
来 ， 这 样 我 们 就 能 使 用 金枪鱼 搭配 不 同 的 面包 。 可 是 ， 如 果 我 们 想 
把 面包 取出 来 ， 使 用 小 麦 面包 夹 不 同 的 馅 儿 呢 ?” 这 就 是 with 语句 
实现 的 功能 。with 语句 是 子 程序 的 补充 。Hettinger 接着 说 道 : 


with 语句 是 非常 了 不 起 的 特性 。 我 建议 你 在 实践 中 深 挖 这 个 
特性 的 用 途 。 使 用 with 语句 或 许 能 做 意义 深远 的 事情 。with 
语句 最 好 的 用 法 还 未 被 发 掘 出 来 。 我 预料 ， 如 果 有 好 的 用 法 ， 
其 他 语言 以 及 未 来 的 语言 会 借鉴 这 个 特性 。 或 许 ， 你 正在 参与 
的 事情 几乎 与 子 程序 的 发 明 一 样 意义 深远 。 
Hettinger 承认 ， 他 夸大 了 with 语句 的 作用 。 尽 管 如 此 ，with 语句 
仍 是 一 个 十 分 有 用 的 特性 。 他 用 三 明治 类 比 ， 道 出 with 语句 是 子 
程序 的 补充 ， 那 一 刻 ， 我 的 脑海 中 浮现 了 许多 可 能 性 。 


如 果 你 想 让 任何 人 信服 Python 是 出 色 的 语言 ， 一 定 要 观看 Hettinger 


的 主题 演讲 。 关 于 上 下 文 管理 器 的 部 分 从 23:00 开始 ， 到 26:15 2 
束 。 不 过 ， 整 个 主题 演讲 都 很 精彩 。 


16 i HJE 


WA Python eA — ENTE STEAL, ABA CODE ace) 文档 最 芽 
乏 、 最 鲜 为 人 知 的 Python 特性 ， 因 此 表面 上 看 是 最 无 用 的 特性 。 


David Beazley 
Python 图 书 作 者 


字典 为 动词 “to yield” 给 出 了 两 个 释义 : 产 出 和 让 步 。 对 于 Python 生成 器 
中 的 yield 来 说 ， 这 两 个 含义 都 成 立 。yield item 这 行 代码 会 产 出 一 
个 值 ， 提 供给 next(...) 的 调用 方 ; 此 外 ， 还 会 作出 让 步 ， 暂 停 执 行 
生成 器 ， 让 调用 方 继续 工作 ， 直 到 需要 使 用 另 一 个 值 时 再 调用 
next() 。 调 用 方 会 从 生成 器 中 拉 取 值 。 


从 句法 上 看 ， 协 程 与 生成 器 类 似 ， 都 是 定义 体 中 包含 yield 关键 字 的 
函数 。 可 是 ， 在 协 程 中 ，yield 通常 出 现在 表达 式 的 右边 〈 例 

W, datum = yield) ， 可 以 产 出 值 ， 也 可 以 不 产 出 一 一 如 果 yield 
RE FIRMA RIA, MAER H None。 协 程 可 能 会 从 调用 方 
接收 数据 ， 不 过 调用 方 把 数据 提供 给 协 程 使 用 的 是 .send(datum) 方 
法 ， 而 不 是 next(...) 函数 。 通 常 ， 调 用 方 会 把 值 推送 给 协 程 。 
yield 关键 字 甚 至 还 可 以 不 接收 或 传 出 数据 。 不 管 数据 如 何 流 

zJ, yield 都 是 一 种 流程 控制 工具 ， 使 用 它 可 以 实现 协作 式 多 任务 : 协 
程 可 以 把 控制 器 让 步 给 中 心 调 度 程 序 ， 从 而 激活 其 他 的 协 程 。 

从 根本 上 把 yield 视 作 控制 流程 的 方式 ， 这 样 就 好 理解 协 程 了 。 

本 书 前 面 介 绍 的 生成 器 函数 作用 不 大 ， 但 是 进行 一 系列 功能 改进 之 后 ， 
得 到 了 Python 协 程 。 了 解 Python 协 程 的 进化 过 程 有 助 于 理解 各 个 阶段 
改进 的 功能 和 复杂 上 度 。 


本 章 首先 要 简单 介绍 生成 器 如 何 变 成 协 程 ， 然 后 再 进入 核心 内 容 。 本 章 
涵盖 以 下 话题 ; 


。 生成 器 作为 协 程 使 用 时 的 行为 和 状态 


。 (EHR ita H SC Re 


。 调用 方 如 何 使 用 生成 器 对 象 的 .close() 和 .throw(...) 方法 控 
制 协 程 


。 协 程 终 止 时 如 何 返 回 值 
e yield from 新 句法 的 用 途 和 语义 
。 使 用 案例 一 一 使 用 协 程 管理 仿真 系统 中 的 并 发 活动 


16.1 生成 器 如 何 进 化 成 协 程 


协 程 的 底层 架构 在 “PEP 342—Coroutines via Enhanced 

Generators” (https://www.python.org/dev/peps/pep-0342/) 中 定义 ， 并 在 
Python 2.5 (2006 F) 实现 了 。 自 此 之 后 ，yield 关键 字 可 以 在 表达 式 
中 使 用 ， 而 且 生 成 器 API 中 增加 了 .send(value) 方法 。 生 成 器 的 调用 
方 可 以 使 用 .send(...) 方法 发 送 数据 ， 发 送 的 数据 会 成 为 生成 器 函数 
中 yield 表达 式 的 值 。 因 此 ， 生 成 器 可 以 作为 协 程 使 用 。 协 程 是 指 一 
个 过 程 ， 这 个 过 程 与 调用 方 协作 ， 产 出 由 调用 方 提供 的 值 。 


除了 .send(...) 方法 ，PEP 342 还 添加 了 .throw(...) 和 .close() 
方法 : 前 者 的 作用 是 让 调用 方 扫 出 异常 ， 在 生成 器 中 处 理 ， 后 者 的 作用 
是 终止 生成 器 。 下 一 节 和 16.5 节 会 说 明 这 些 方法 。 


协 程 最 近 的 演进 来 自 Python 3.3 (2012 年 ) 实现 的 “PEP 380—Syntax for 
Delegating to a Subgenerator” Chttps://www.python.org/dev/peps/pep- 
0380/) > PEP 380 对 生成 融 函 数 的 句法 做 了 两 处 改动 ， 以 便 更 好 地 作为 
协 程 使 用 。 


。 现 在 ， 生 成 器 可 以 返回 一 个 值 ， 以 前 ， 如 果 在 生成 器 中 给 return 
语句 提供 值 ， 会 抛 出 SyntaxError 异常 。 


e 新 引入 了 yield from 句法 ， 使 用 它 可 以 把 复杂 的 生成 器 重 构成 小 
型 的 抠 套 生成 器 ， 省 去 了 之 前 把 生成 器 的 工作 委托 给 子 生 成 器 所 需 
的 大 量 样板 代码 。 
这 两 个 最 新 的 改动 分 别 在 16.6 节 和 16.7 节 讨 论 。 


按照 本 书 的 惯例 ， 我 们 先 从 基本 概念 和 示例 入 手 ， 然 后 再 深入 越 来 越 难 
以 理解 的 特性 。 


16.2 用 作协 程 的 生成 器 的 基本 行为 
示例 16-1 展示 了 协 程 的 行为 。 
示例 16-1 可 能 是 协 程 最 简单 的 使 用 演示 


>>> def simple coroutine():# © 
print('-> coroutine started') 
x = yield #@ 
print('-> coroutine received:', x) 


>>> my_coro = simple_coroutine() 

>>> my_coro # © 

<generator object simple _coroutine at 0x100c2be10> 
>>> next(my_coro) #@ 

-> coroutine started 

>>> my_coro.send(42) # © 

-> coroutine received: 42 

Traceback (most recent call last): # O 


StopIteration 


O 协 程 使 用 生成 器 函数 定义 : 定义 体 中 有 yield 关键 字 。 

O yield 在 表达 式 中 使 用 ， 如 果 协 程 只 需 从 客户 那里 接收 数据 ， 那 么 
产 出 的 值 是 None 一 一 这 个 值 是 隐 式 指定 的 ， 因 为 yield 关键 字 右 边 没 
有 表达 式 。 

O 与 创建 生成 器 的 方式 一 样 ， 调 用 函数 得 到 生成 器 对 象 。 


O 首先 要 调用 next(...) 函数 ， 因 为 生成 器 还 没 启动 ， 没 在 yield iz 
句 处 暂停 ， 所 以 一 开始 无 法 发 送 数据 。 

O 调用 这 个 方法 后 ， 协 程 定义 体 中 的 yield 表达 式 会 计算 出 42; WH 
在 ， 协 程 会 恢复 ， 一 直 运 行 到 下 一 个 yield 表达 式 ， 或 者 终止 。 


@ 这 里 ， 控 制 权 流动 到 协 程 定义 体 的 末尾 ， 导 致 生 成 器 像 往常 一 样 抛 
出 StopIteration 异常 。 


协 程 可 以 身 处 四 个 状态 中 的 一 个 。 当 前 状态 可 以 使 用 
inspect.getgeneratorstate(...) RAH, RAI PIAS 


符 串 中 的 一 个 。 
‘GEN_CREATED' 
等 待 开始 执行 。 
“GEN_RUNNING 
解释 器 正在 执行 。1 


1 只 有 在 多 线程 应 用 中 才能 看 到 这 个 状态 。 此 外 ， 生 成 器 对 象 在 自己 身上 调用 
getgeneratorstate 函数 也 行 ， 不 过 这 样 做 没什么 用 。 


"GEN_SUSPENDED' 

Æ yield 表达 式 处 暂停 。 
'GEN_CLOSED 

执行 结束 。 


因为 send 方法 的 参数 会 成 为 暂停 的 yield 表达 式 的 值 ， 所 以 ， 仅 当 协 
程 处 于 暂停 状态 时 才能 调用 send 方法 ， 例 如 my_coro.send(42)。 不 
过 ， 如 果 协 程 还 没 激活 CBN, 状态 是 "GEN _CREATED' ya 情况 就 不 同 
了 。 因 此 ， 始 终 要 调用 next(my_coro) 激活 协 程 一 也 可 以 调用 
my_coro.send(None)， 效 果 一 样 。 


如 果 创 建 协 程 对 象 后 立即 把 None 之 外 的 值 发 给 它 ， 会 出 现下 述 错误 


>>> my_coro = simple_coroutine() 
>>> my_coro.send(1729) 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
TypeError: can't send non-None value to a just-started generator 


TERRIA, EAR AA SA 


最 先 调用 next(my_coro) eiAix— Pi KAT” prime) 协 程 
7 让 协 程 向 前 执行 到 第 一 个 yield 表达 式 ， 准 备 好 作为 活跃 的 协 
TH) 。 


T EER 以 便 更 好 地 理解 协 程 的 行为 ， 如 示例 16-2 
ZN o 


示例 16-2 产 出 两 个 值 的 协 程 


>>> def simple coro2(a): 
print('-> Started: a 
b = yield a 
print('-> Received: b 
c= yielda+b 
print('-> Received: c 


>>> my_coro2 = simple coro2(14) 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(my_coro2) © 
"GEN_CREATED' 

>>> next(my_coro2) @ 


-> Started: a = 14 

14 

>>> getgeneratorstate(my_coro2) © 

"GEN_SUSPENDED' 

>>> my_coro2.send(28) @ 

-> Received: b = 28 

42 

>>> my_coro2.send(99) © 

-> Received: c = 99 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

StopIteration 

>>> getgeneratorstate(my_coro2) © 

"GEN_CLOSED' 


@ inspect. getgeneratorstate 函数 指明 ， 处 于 GEN_CREATED 状态 
《 即 协 程 未 局 动 ) 。 


© 同 前 执行 协 程 到 第 一 个 yield 表达 式 ， 打 印 -> Started: a = 14 
消息 ， 然 后 产 出 a 的 值 ， 并 且 暂 停 ， 等 待 为 b IME. 


© getgeneratorstate 函数 指明 ， 人 处 于 GEN_SUSPENDED 状态 ( 即 协 


FETE yield 表达 式 处 暂停 ) 。 


O 把 数字 28 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 28， 然 后 把 
那个 数 绑 定 给 b。 打 印 -> Received: b = 28 消息 ， 产 出 a + b 的 值 
(42) ， 然 后 协 程 暂停 ， 等 竺 为 c 赋值 。 


O 把 数字 99 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 99， 然 后 把 
那个 数 绑 定 给 c。 打 印 -> Received: c = 99 消息 ， 然 后 协 程 终止， 
导致 生成 器 对 象 抛 出 StopIteration 异常 。 


@ getgeneratorstate 函数 指明 ， 人 处 于 GEN_CLOSED 状态 《〈 即 协 程 执 
行 结束 ) 。 


关键 的 一 点 是 ， 协 程 在 yield 关键 字 所 在 的 位 置 暂停 执行 。 前 面 说 
过 ， 在 赋值 语句 中 ，= 右边 的 代码 在 赋值 之 前 执行 。 因 此 ， 对 于 b = 
yield a 这 行 代码 来 说 ， 等 到 客户 端 代码 再 激活 协 程 时 才 会 设 定 b 的 
值 。 这 种 行为 要 花 点 时 间 才 能 习惯 ， 不 过 一 定 要 理解 ， 这 样 才 能 弄 懂 异 
步 编程 中 yield 的 作用 (后 文 探讨 )。 


simple_coro2 协 程 的 执行 过 程 分 为 3 个 阶段 ， 如 图 16-1 Aras. 


(1) 调用 next(my_coro2)， 打 印 第 一 个 消息 ， 然 后 执行 yield a, 产 
出 数字 14。 


(2) 调用 my_coro2.send(28)， 把 28 赋值 给 b， 打 印 第 二 个 消息 ， 然 
后 执行 yield a + b， 产 出 数字 42. 


(3) 调用 my_coro2.send(99)， 把 99 赋值 给 c， 打 印 第 三 个 消息 ， 协 
程 终 止 。 


>>> my_coro2 = simple_coro2(14) 


= 


def simple_coro2(a): | >>> next(my_coro2) 


print('-> Started: a =', a) @ -> Started: a = 14 
b =|yield a 14 Ae ee ere LLL. 
print('-> Received: b =', b) >>> my_coro2.send(28) 


c =|yield a + b 四 -> Received: b = 28 
print('-> Received: c =', c) 


>>> my_coro2.send(99) 
@ -> Received: c = 99 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


图 16-1: 执行 simple_coro2 协 程 的 3 个 阶段 (注意 ， 各 个 阶段 都 在 
yield 表达 式 中 结束 ， 而 且 下 一 个 阶段 都 从 那 一 行 代 码 开始 ， 然 后 
再 把 yield 表达 式 的 值 赋 给 变量 ) 


下 面 来 看 一 个 稍微 复杂 的 协 程 示 例 。 


16.3 示例 ; 使 用 协 程 计算 移动 平均 值 


第 7 章 讨 论 财 包 时 ， 我 们 分 析 了 如 何 使 用 对 象 计算 移动 平均 值 : 示例 7- 
8 定义 的 是 一 个 简单 的 类 ;示例 7-14 定义 的 是 一 个 高 阶 函 数 ， 用 于 生成 
一 个 闭 包 ， 在 多 次 调用 之 间 跟 踪 total 和 count 变量 的 值 。 示 例 16-3 
展示 如 何 使 用 协 程 实现 相同 的 功能 。? 


?这 个 示例 的 灵感 来 自 Jacob Holm 在 Python-ideas 邮件 列表 中 发 布 的 一 个 代码 片段 ， 他 发 布 的 
消息 题 为 “Yield-From: Finalization guarantees” (https://mail.python.org/pipermail/python-ideas/2009- 

Apriy003841.html〉。 在 那个 消息 的 后 续 回 复 中 ， 那 段 代码 有 几 个 变 体 。Holm 在 003912 号 消息 
(https//mail.python.org/pipermail/python-ideas/2009-Apri/003912.html〉 中 进一步 说 明了 自己 的 想 


Yo 


示例 16-3 coroaverager0.py: 定义 一 个 计算 移动 平均 值 的 协 程 


def averager(): 
total = 0.0 
count = 6 
average = None 
while True: @ 


term = yield average @ 
total += term 

count += 1 

average = total/count 


@ 这 个 无 限 循环 表明 ， 只 要 调用 方 不 断 把 值 发 给 这 个 协 程 ， 它 就 会 一 
直接 收 值 ， 然 后 生成 结果 。 仅 当 调 用 方 在 协 程 上 调用 .close() 方法 ， 
或 者 没有 对 协 程 的 引用 而 被 垃圾 回收 程序 回收 时 ， 这 个 协 程 才 会 终止。 


O 这 里 的 yield 表达 式 用 于 和 暂停 执行 协 程 ， 把 结果 发 给 调用 方 ; 还 用 
于 接收 调用 方 后 面 发 给 协 程 的 值 ， 恢 复 无 限 循 环 。 


使 用 协 程 的 好 处 是 ，total 和 count 声明 为 局 部 变量 即 可 ， 无 需 使 用 
实例 属性 或 闭 包 在 多 次 调用 之 间 保 持 上 下 文 。 示 例 16-4 是 使 用 
averager 协 程 的 doctest. 


示例 16-4 ”coroaverager0.py: 示例 16-3 中 定义 的 移动 平均 值 协 程 


的 doctest 


>>> coro_avg = averager() @ 
>>> next(coro_avg) @ 

>>> coro_avg.send(10) © 
10.0 


>>> coro_avg.send(3@) 
20.0 

>>> coro_avg.send(5) 
15.0 


@ 创建 协 程 对 象 。 
四 调用 next 函数 ， 预 激 协 程 。 
人 多 次 调用 .send(...) 方法 ， 产 出 当前 的 平均 


在 上 述 doctest 中 (示例 16-4) ， 调 用 next(coro_avg) 函数 后 ， 协 程 
会 向 前 执行 到 yield 表达 式 ， 产 出 average 变量 的 初始 值 一 一 None， 
因此 不 会 出 现在 控制 台中 。 此 时 ， 协 程 在 yield 表达 式 处 暂停 ， 等 到 
调用 方 发 送 值 。coro_avg.send(16) 那 一 行 发 送 一 个 值 ， 激 活 协 程 ， 
把 发 送 的 值 赋 给 term， 并 更 新 total, count 和 average 三 个 变量 的 
值 ， 然 后 开始 while 循环 的 下 一 次 迭代 ， 产 出 average 变量 的 值 ， 等 
待 下 一 次 为 term 变量 赋值 。 

细心 的 读者 可 能 迫切 地 想 知 道 如 何 终 止 执 行 averager 实例 (如 
coro_avg) ， 因 为 定义 体 中 有 个 无 限 循环 。16.5 节 会 讨论 这 个 话题 。 


讨论 如 何 终 止 协 程 之 前 ， 我 们 要 先 谈 谈 如 何 局 动 协 程 。 使 用 协 程 之 前 必 
须 预 激 ， 可 是 这 一 步 容 易 扎 记 。 为 了 避免 生 记 ， 可 以 在 协 程 上 使 用 一 个 
特殊 的 装饰 器 。 接 下 来 介绍 这 样 一 个 装饰 器 。 


16.4 SiC FE HY eh as 


如 果 不 预 激 ， 那 么 协 程 没 什么 用 。 调 用 my_coro.send(x) 之 前 ， 记 住 
一 定 要 调用 next(my_coro) 。 为 了 简化 协 程 的 用 法 ， 有 时 会 使 用 一 个 
预 激 装饰 器 。 示 例 16-5 中 的 coroutine 装饰 器 是 一 例 。3 


3 网 上 有 多 个 类 似 的 装饰 器 。 这 个 改 自 ActiveState 中 的 一 个 诀窍 一 一 “Pipeline made of 
coroutines” Chttp://code.activestate.com/recipes/578265-pipeline-made-of-coroutines/) ， 作 者 是 
Chaobin Tang， 而 他 是 受到 了 David Beazley 的 启发 。 


示例 16-5 coroutil.py: 预 激 协 程 的 装饰 器 


from functools import wraps 


def coroutine(func): 
""" 装 饰 器 ， 向 前 执行 到 第 一 个 "yield` 表达 式 ， 预 激 func" 
Q@wraps(func) 


def primer(*args,**kwargs): @ 
gen = func(*args,**kwargs) @ 
next(gen) © 
return gen @ 

return primer 


@ 把 被 装饰 的 生成 器 函数 替换 成 这 里 的 primer 函数 ;调用 primer K 
数 时 ， 返 回 预 激 后 的 生成 器 。 


O 调用 被 闭 饰 的 函数 ， 获 取 生 成 器 对 象 。 

© 预 激 生成 器 。 

O 返回 生成 器 。 

示例 16-6 展示 @coroutine 装饰 器 的 用 法 。 请 与 示例 16-3 对 比 。 


示例 16-6 coroaveragerl.py: 使 用 示例 16-5 中 定义 的 
@coroutine 装饰 器 定义 并 测试 计算 移动 平均 值 的 协 程 


用 于 计算 移动 平均 值 的 协 程 


>>> coro_avg = averager() @ 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(coro_avg) 
"GEN_SUSPENDED'" 

>>> coro_avg.send(10) © 

10.0 

>>> coro_avg.send(3@) 

20.0 

>>> coro_avg.send(5) 

15.0 


from coroutil import coroutine @ 


@coroutine © 
def averager(): © 
total = 0.0 
count = @ 
average = None 
while True: 
term = yield average 
total += term 
count += 1 
average = total/count 


@ 调用 averager() 函数 创建 一 个 生成 器 对 象 ， 在 coroutine 装饰 器 
的 primer 函数 中 已 经 预 激 了 这 个 生成 器 。 


© getgeneratorstate 函数 指明 ， 处 于 GEN_SUSPENDED 状态 ， 因 此 
这 个 协 程 已 经 准备 好 ， 可 以 接收 值 了 。 


© 可 以 立即 开始 把 值 发 给 coro_avg 一 一 这 正 是 coroutine 装饰 器 的 
日 的 。 


O 导入 coroutine 装饰 器 。 
O 把 装饰 器 应 用 到 averager 函数 上 。 


O FAKE MAB 16-3 完全 一 样 。 


很 多 框架 都 提供 了 处 理 协 程 的 特殊 装饰 器 ， 不 过 不 是 所 有 装饰 器 都 用 于 
预 激 协 程 ， 有 些 会 提供 其 他 服务 ， 例 如 勾 入 事件 循环 。 比 如 说 ， 异 步 区 
络 库 Tornado 提供 了 tornado.gen 装饰 器 
(http://tornado.readthedocs.org/en/latest/gen.html ) 。 


使 用 yield from 句法 (参见 16.7 节 ) 调用 协 程 时 ， 会 自动 预 激 ， 

此 与 示例 16-5 中 的 @coroutine 等 装饰 器 不 兼容 。Python 3.4 标准 库 里 
的 asyncio.coroutine 装饰 器 (第 18 章 介 绍 ) 不 会 预 激 协 程 ， 因 此 

能 兼容 yield from 句法 。 


协 程 的 重要 特性 一 一 用 于 终止 协 程 ， 以 及 在 协 程 中 抛 出 异 各 
方法 。 


16.5 终止 协 程 和 异常 处 理 

协 程 中 未 处 理 的 异常 会 同上 冒 泡 ， 传 给 next 函数 或 send 方法 的 调用 
方 ( 即 触发 协 程 的 对 象 )。 示 例 16-7 举例 说 明 如 何 使 用 示例 16-6 中 由 
装饰 器 定义 的 averager 协 程 。 


示例 16-7 未 处 理 的 异常 会 导致 协 程 终止 


>>> from coroaverager1 import averager 
>>> coro_avg = averager() 

>>> coro_avg.send(40) # © 

40.0 

>>> coro_avg.send(5@) 

45.0 

>>> coro_avg.send('spam') # @ 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for +=: ‘float’ and ‘str' 
>>> coro_avg.send(60) # 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


> @coroutine 装饰 器 装饰 的 averager 协 程 ， 可 以 立即 开始 发 送 
值 。 


O 发 送 的 值 不 是 数字 ， 导 致 协 程 内 部 有 异常 抛 出 。 


O 由 于 在 协 程 内 没有 处 理 异常 ， 协 程 会 终止 。 如 果 试 图 重新 激活 协 
程 ， 会 抛 出 StopIteration 异常 。 


出 错 的 原因 是 ， 发 送 给 协 程 的 "spam' 值 不 能 加 到 total 变量 上 。 


示例 16-7 暗示 了 终止 协 程 的 一 种 方式 : 发 送 某 个 哨 符 值 ， 让 协 程 退 
出 。 内 置 的 None 和 Ellipsis 等 常量 经 常用 作 哨 符 值 。E11ipsis 的 
优点 是 ， 数 据 流 中 不 太 常 有 这 个 值 。 我 还 见 过 有 人 把 StopIteration 
类 《类 本 身 ， 而 不 是 实例 ， 也 不 抛 出 ) 作为 哨 符 值 ;也 就 是 说 ， 是 像 这 
样 使 用 的 : my_coro.send(StopIteration). 


从 Python 2.5 开始 ， 客 户 代码 可 以 在 生成 器 对 象 上 调用 两 个 方法 ， 显 式 
HFEA E RA DE o 


这 两 个 方法 是 throw 和 close. 
generator.throw(exc_type[, exc_value[, traceback]]) 


致使 生成 器 在 暂停 的 yield 表达 式 处 抛 出 指定 的 异常 。 如 果 生 成 
器 处 理 了 抛 出 的 异常 ， 代 码 会 癌 前 执行 到 下 一 个 yield 表达 式 ， 而 产 
出 的 值 会 成 为 调用 generator.throw 方法 得 到 的 返回 值 。 如 果 生 成 器 
没有 处 理 抛 出 的 异常 ， 异 常会 向 上 冒 泡 ， 传 到 调用 方 的 上 下 文中 。 


generator.close() 


致使 生成 器 在 暂停 的 yield 表达 式 处 抛 出 GeneratorExit 异常 。 
如 果 生 成 器 没有 处 理 这 个 异常 ， 或 者 殷 出 了 StopIteration 异常 ( 通 
党 是 指 运行 到 结尾 ) ， 调 用 方 不 会 报错 。 如 果 收 到 GeneratorExit 异 
和 常 ， 生 成 堪 一 定 不 能 产 出 值 ， 人 否则 解释 器 会 抛 出 RuntimeError 异常。 
生成 器 抛 出 的 其 他 异 芝 会 同上 冒 泡 ， 传 给 调用 方 。 


~ 生成 器 对 象 方法 的 官方 文档 深 藏 在 Python 语言 参考 手册 中 ， 
参见 “6.2.9.1.Generator-iterator 

methods” Chttps://docs.python.org/3/reference/expressions.html#generator- 
iterator-methods) 。 


下 面 举例 说 明 如 何 使 用 close 和 throw 方法 控制 协 程 。 示 例 16-8 列 出 
的 是 接 下 来 的 例子 使 用 的 demo_exc_handling 函数 。 


示例 16-8 coro_exc_demo.py: 学 习 在 协 程 中 处 理 异 常 的 测试 代码 


class DemoException(Exception): 


we "为 这 次 演示 定义 的 异常 类 型 。 woe 


def demo_exc_handling(): 
print('-> coroutine started' ) 
while True: 
try: 
x = yield 
except DemoException: @ 


print('*** DemoException handled. Continuing...') 
else: @ 
print('-> coroutine received: {!r}'.format(x) ) 
raise RuntimeError('This line should never run.') 


@ 特别 处 理 DemoException 异常 。 
O 如 果 没 有 异常 ， 那 么 显示 接收 到 的 值 。 
O 这 一 行 永远 不 会 执行 。 


示例 16-8 中 的 最 后 一 行 代 码 不 会 执行 ， 因 为 只 有 未 处 理 的 卉 种 才 会 中 
止 那个 无 限 循 坏 ， 而 一 旦 出 现 未 处 理 的 异 第 ， 协 程 会 立即 终止 。 


demo_exc_handling 函数 的 常规 用 法 如 示例 16-9 所 示 。 
示例 16-9 激活 和 关闭 demo_exc_handling， 没 有 异常 


>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 

>>> exc_coro.send(22) 

-> coroutine received: 22 

>>> exc_coro.close() 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(exc_coro) 
"GEN_CLOSED' 


如 果 把 DemoException 异常 传 入 demo_exc_handling 协 程 ， 它 会 处 
理 ， 然 后 继续 运行 ， 如 示例 16-10 所 示 。 


示例 16-10 把 DemoException 异常 传 入 demo_exc_handling 不 
会 导致 协 程 中 止 


>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 


>>> exc_coro.throw(DemoException) 

*** DemoException handled. Continuing... 
>>> getgeneratorstate(exc_coro) 
"GEN_SUSPENDED' 


但 是 ， 如 果 传 入 协 程 的 异常 没有 处 理 ， 协 程 会 停止 ， 即 状态 变 成 
'GEN_CLOSED ' 。 示 例 16-11 演示 了 这 种 情况 。 


示例 16-11 如 果 无 法 处 理 传 入 的 异常 ， 协 程 会 终止 


>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 

>>> exc_coro.throw(ZeroDivisionError ) 
Traceback (most recent call last): 


ZeroDivisionError 
>>> getgeneratorstate(exc_coro) 
"GEN_CLOSED' 


如 果 不 管 协 程 如 何 结束 都 想 做 些 清 理工 作 ， 要 把 协 程 定义 体 中 相关 的 代 
码 放 入 try/finally 块 中 ， 如 示例 16-12. 


示例 16-12 coro finally demo.py: 使 用 try/finally 块 在 协 程 终 
止 时 执行 操作 


class DemoException(Exception): 


""" 为 这 次 演示 定义 的 异常 类 型 。""" 


def demo finally(): 
print('-> coroutine started') 
try: 
while True: 
try: 
x = yield 
except DemoException: 
print('*** DemoException handled. Continuing...') 
else: 
print('-> coroutine received: {!r}'.format(x) ) 
finally: 


print('-> coroutine ending’ ) 


Python 3.3 引入 yield from 444 = 2UR A 2 -5E RAREN 
协 程 有 关 。 另 一 个 原因 是 让 协 程 更 方便 地 返回 值 。 请 继续 往 下 读 ， 了 解 
详情 。 


16.6 让 协 程 返 回 值 


示例 16-13 是 averager 协 程 的 不 同 版 本 ， 这 一 版 会 返回 结果 。 为 了 说 
明 如 何 返回 值 ， 每 次 激活 协 程 时 不 会 产 出 移动 平均 值 。 这 么 做 是 为 了 强 
而 是 在 最 后 返回 一 个 值 ( 通 常 是 某 种 累计 

Jig 


示例 16-13 中 的 averager 协 程 返 回 的 结果 是 一 个 namedtuple， 两 个 
字段 分 别 是 项 数 (count) 和 平均 值 (average) 。 我 本 可 以 只 返回 平 
均值 ， 但 是 返回 一 个 元 组 可 以 获得 累积 数据 的 另 一 个 重要 信息 一 一 项 
数 。 


示例 16-13 coroaverager2.py: 定义 一 个 求 平 均值 的 协 程 ， 让 它 返 
回 一 个 结果 


from collections import namedtuple 


Result = namedtuple('Result', ‘count average') 


def averager(): 
total = 0.0 
count = @ 
average = None 
while True: 
term = yield 
if term is None: 
break @ 
total += term 
count += 1 
average = total/count 
return Result(count, average) @ 


@ 为 了 返回 值 ， 协 程 必须 正常 终止 ， 因此 ， 这 一 版 averager 中 有 个 条 
件 判 断 ， 以 便 退 出 累计 循环 。 


@ 返回 一 个 namedtuple， 包 含 count 和 average 两 个 字段 。 在 
Python 3.3 之 前 ， 如 果 生 成 器 返回 值 ， 解 释 器 会 报 句 法 错误 。 


下 面 在 控制 台中 说 明 如 何 使 用 新 版 averager， 如 示例 16-14 所 示 。 


示例 16-14 coroaverager2.py: 说 明 averager 行为 的 doctest 


>>> coro_avg = averager() 
>>> next(coro_avg) 

>>> coro_avg.send(10) @ 
>>> coro_avg.send(3@) 


>>> coro_avg.send(6.5) 
>>> coro_avg.send(None) @ 
Traceback (most recent call last): 


StopIteration: Result(count=3, average=15.5) 
@ 这 一 版 不 产 出 值 。 


O 发 送 None 会 终止 循环 ， 导 致 协 程 结 束 ， 返 回 结果 。 一 如 既往 ， 生 成 
器 对 象 会 抛 出 StopIteration 异常 。 异 常 对 象 的 value 属性 保存 着 返 
回 的 值 。 


注意 ，return 表达 式 的 值 会 偷偷 传 给 调用 方 ， 赋 值 给 StopIteration 
异常 的 一 个 属性 。 这 样 做 有 点 不 合 常 理 ， 但 是 能 保留 生成 器 对 象 的 常规 
行为 一 一 耗 尽 时 抛 出 StopIteration 异常 。 

示例 16-15 展示 如 何 获 取 协 程 返回 的 值 。 


示例 16-15 捕获 StopIteration 异常 ， 获 取 averager 返回 的 
值 


coro_avg = averager() 
next(coro_avg) 
coro_avg.send(10@) 
coro_avg.send(3@) 
coro_avg.send(6.5) 
try: 
coro_avg.send(None) 
. except StopIteration as exc: 
result = exc.value 


>>> result 
Result(count=3, average=15.5) 


获取 协 程 的 返回 值 虽然 要 绕 个 疾 子 ， 但 这 是 PEP 380 定义 的 方式 ， 当 我 
们 意识 到 这 一 点 之 后 就 说 得 通 了 : yield from 结构 会 在 内 部 自动 捕获 
StopIteration 异常 。 这 种 处 理 方式 与 for 循环 处 理 StopIteration 
异常 的 方式 一 样 : 循环 机 制 使 用 用 户 易 于 理解 的 方式 处 理 异常 。 对 
yield from 结构 来 说 ， 解 释 器 不 仅 会 捕获 StopIteration 异常 ， 还 
会 把 value 属性 的 值 变 成 yield from 表达 式 的 值 。 可 惜 ， 我 们 无 法 
在 控制 台中 使 用 交互 的 方式 测试 这 种 行为 ， 因 为 在 函数 外 部 使 用 yield 
from (以 及 yield) 会 导致 句法 出 错 。4 


4ipython 有 个 扩展 一 一 ipython-yf (https://github.com/tecki/ipython-yf) ， 安 装 这 个 扩展 后 可 以 在 
Python 控制 台中 直接 执行 yield from。 这 个 扩展 用 于 测试 异步 代码 ， 可 以 结合 asyncio 模 
块 使 用 。 这 个 扩展 已 经 提交 为 Python 3.5 的 补丁 ， 但 是 没有 被 接受 。 参 见 Python mI ARS 
中 的 22412 号 工 单 : Towards an asyncio-enabled command 

line Chttp://bugs.python.org/issue22412) 。 


下 一 节 会 举例 说 明 如 何 使 用 yield from 结构 按照 PEP 380 定义 的 方式 
获取 averager 协 程 返 回 的 值 。 下 面 讨 论 yield from 结构 。 


16.7 使 用 yield from 


首先 要 知道 ，yield from 是 全 新 的 语言 结构 。 它 的 作用 比 yield 多 很 
多 ， 因 此 人 们 认为 继续 使 用 那个 关键 字 多 少 会 引起 误解 。 在 其 他 语言 
中 ， 类 似 的 结构 使 用 await 关键 字 ， 这 个 名 称 好 多 了 ， 因 为 它 传达 了 
至 关 重 要 的 一 点 : 在 生成 器 gen 中 使 用 yield from subgen() 

时 ，subgen 会 获得 控制 权 ， 把 产 出 的 值 传 给 gen 的 调用 方 ， 即 调用 方 
可 以 直接 控制 subgen。 与 此 同时 ，gen 会 阻塞 ， 等 待 subgen Aik. 5 


5 写作 本 书 时 ， 有 个 PEP 正在 讨论 中 ， 提 议 增 加 await 和 async 关键 字 : PEP 492—Coroutines 
with async and await syntax Chttps://www.python.org/dev/peps/pep-0492/) 。 


第 14 章 说 过 ，yield from 可 用 于 简化 for 循环 中 的 yield 表达 式 。 
例如 : 


>>> def gen(): 
gi for c in 'AB': 


yield c 
for i in range(1, 3): 


yield i 


on list(gen()) 
['A', 'B', 1, 2] 


可 以 改写 为 : 


>>> def gen(): 
; yield from 'AB' 
yield from range(1, 3) 


>>> list(gen()) 
['A', 'B', 1, 2] 


14.10 TAKER] yield from 时 举 了 一 个 例子 ， 演 示 这 个 结构 的 用 
法 ， 如 示例 16-16 iz. 6 


6 示例 16-16 仅 供 教学 使 用 。itertools 模块 提供 了 优化 版 chain 函数 ， 使 用 C 语言 编写 。 


示例 16-16 使 用 yield from 链接 可 迭代 的 对 象 


>>> def chain(*iterables): 
for it in iterables: 
yield from it 


>>> s = 'ABC' 

>>> t = tuple(range(3) ) 
>>> list(chain(s, t)) 
['A', 'B', 'C', ©, 1, 2] 


在 Beazley 与 Jones 的 《Python Cookbook (2 3 fiz) 中文 版 》 一 书 

H, “4.14 局 平 化 处 理 藤 套 型 的 序列 ”一 节 有 个 稍微 复杂 《不 过 更 有 用 ) 
的 yield from 示例 (源码 在 GitHub 

H, https://github.com/dabeaz/python- 
cookbook/blob/master/src/4/how to flatten a nested sequence/example.py ) 


yield from x 表达 式 对 x 对 象 所 做 的 第 一 件 事 是 ， 调 用 iter(x), M 
中 获取 迭代 器 。 因 此 ，x 可 以 是 任何 可 迭代 的 对 象 。 


Aye, WR yield from 结构 唯一 的 作用 是 蔡 代 产 出 值 的 藤 套 for 循 
环 ， 这 个 结构 很 有 可 能 不 会 添加 到 Python 语言 中 。yield from 结构 的 
本 质 作 用 无 法 通过 简单 的 可 迭代 对 象 说 明 ， 而 要 发 散 思 维 ， 使 用 租 套 的 
生成 器 。 因 此 ， 引 入 yield from 结构 的 PEP 380 才 起 了 “Syntax for 
Delegating to a Subgenerator”(“ 把 职员 委托 给 子 生 成 器 的 句法 ”) 这 个 标 
题 。 


yield from 的 主要 功能 是 打开 双向 通道 ， 把 最 外 层 的 调用 方 与 最 内 层 
的 子 生 成 絮 连 接 起 来 ， 这 样 二 者 可 以 直接 发 送 和 产 出 值 ， 还 可 以 直接 传 
入 寞 第 ， 而 不 用 在 位 于 中 间 的 协 程 中 添加 大 量 处 理 寞 第 的 样板 代码 。 有 
了 这 个 结构 ， 协 程 可 以 通过 以 前 不 可 能 的 方式 委托 职责。 


FEH yield from 结构 ， 就 要 大 幅 改 动 代码 。 为 了 说 明 需 要 改动 的 
部 分 ，PEP 380 使 用 了 一 些 专门 的 术语 。 


委派 生成 名 


包含 yield from <iterable> 表达 式 的 生成 器 函数 。 


TÆR 

从 yield from 表达 式 中 <iterable> 部 分 获取 的 生成 器 。 这 就 是 
PEP 380 的 标题 (“Syntax for Delegating to a Subgenerator”) 中 所 说 的 “ 子 
生成 器 ”(subgenerator) 。 
调用 方 


PEP 380 使 用 “调用 方 ” 这 个 术语 指 代 调 用 委 铂 生成 器 的 客户 问 代 
码 。 在 不 同 的 语 境 中 ， 我 会 使 用 “客户 端 ” 代 蔡 “ 调 用 方 ”， 以 此 与 委派 生 
成 器 〈 也 是 调用 方 ， 因 为 它 调 用 了 子 生成 器 ) 区 分 开 。 


和 PEP 380 经 常 使 用 “迭代 器 "这 个 词 指 代 子 生成 器 。 这 样 会 让 人 
误解 ， 因 为 委派 生成 器 也 是 迭代 器 。 因 此 ， 我 选择 使 用 “ 子 生成 
器 ”这 个 术语 ， 与 PEP 380 的 标题 (“Syntax for Delegating to a 
Subgenerator”) 保持 一 致 。 然 而 ， 子 生成 器 可 能 是 简单 的 迭代 器 ， 
只 实现 了 next _ 方法 ; 但 是 ，yield from 也 能 处 理 这 种 子 生 
成 器 。 不 过 ， 引 入 yield from 结构 的 目的 是 为 了 支持 实现 了 
__next__. send, close 和 throw 方法 的 生成 器 。 
示例 16-17 能 更 好 地 说 明 yield from 结构 的 用 法 。 图 16-2 把 该 示例 中 
各 个 相关 的 部 分 标识 出 来 了 。 7 


| 7 图 16-2 的 灵感 来 自 Paul Sokolovsky 绘制 的 示意 图 Chttp//flupy.org/resources/yield-from.pdf) 。 


调用 方 FIRER aF 子 生成 器 
main grouper averager 


图 16-2: 委派 生成 器 在 yield from 表达 式 处 暂停 时 ， 调 用 方 可 以 直 
接 把 数据 发 给 子 生成 器 ， 子 生成 器 再 把 产 出 的 值 发 给 调用 方 。 子 生 


成 器 返回 之 后 ， 解 释 器 会 抛 出 StopIteration 异常 ， 并 把 返回 值 附 
加 到 异常 对 象 上 ， 此 时 委派 生成 器 会 恢复 


coroaverager3.py 脚本 从 一 个 字典 中 读 取 虚构 的 七 年 级 男女 学 生 的 体重 和 
身高 。 例 如 ，'boys;m' 键 对 应 于 9 个 男 学 生 的 身高 (单位 是 

米 )，'girls;kg' 键 对 应 于 10 个 女 学 生 的 体重 (单位 是 千克 ) 。 这 
个 脚本 把 各 组 数据 传 给 前 面 定义 的 averager 协 程 ， 然 后 生成 一 个 报 
告 ， 如 下 所 示 : 


$ python3 coroaverager3.py 
9 boys averaging 40.42kg 
9 boys averaging 1.39m 


16 girls averaging 42.04kg 
16 girls averaging 1.43m 


示例 16-17 中 列 出 的 代码 显然 不 是 解决 这 个 问题 最 简单 的 方案 ， 但 是 通 
过 实例 说 明了 yield from 结构 的 用 法 。 这 个 示例 的 灵感 来 自 “What's 
New in Python 3.3”— 文 (https://docs.python.org/3/whatsnew/3.3.html#pep- 
380) 给 出 的 例子 。 


示例 16-17 coroaverager3.py: 使 用 yield from 计算 平均 值 并 输 
出 统计 报告 


from collections import namedtuple 


Result = namedtuple('Result', ‘count average') 


# 子 生成 器 

def averager(): © 
total = 0.0 
count = @ 


average = None 
while True: 
term = yield @ 
if term is None: © 
break 
total += term 
count += 1 
average = total/count 
return Result(count, average) @ 


# 委派 生成 器 
def grouper(results, key): © 
while True: © 
results[key] = yield from averager() @ 


# 客户 端 代码 ， 即 调用 方 
def main(data): © 
results = {} 
for key, values in data.items(): 
group = grouper(results, key) © 
next(group) 四 
for value in values: 
group.send(value) @ 


group.send(None) # 重要 ! @ 


ern 
kail 


# print(results) # WRZ, ZIE 
report(results) 


# 输出 报告 
def report(results): 
for key, result in sorted(results.items()): 
group, unit = key.split(';') 
print('{:2} {:5} averaging {:.2f}{}'.format( 
result.count, group, result.average, unit)) 


data = { 
"girls;kg': 
[40.9, 38.5, 44.3, 42.2, 45.2, 41.7, 44.5, 38.0, 40.6, 44.5], 
"girls;m': 
[1.6, 1.51, 1.4, 1.3, 1.41, 1.39, 1.33, 1.46, 1.45, 1.43], 
"boys;kg': 
[39.0, 40.8, 43.2, 40.8, 43.1, 38.6, 41.4, 40.6, 36.3], 
"boys;m': 
[1.38, 1.5, 1.32, 1.25, 1.37, 1.48, 1.25, 1.49, 1.46], 
} 
if name == ' main_': 


main(data) 


@ 与 示例 16-13 中 的 averager 协 程 一 样 。 这 里 作为 子 生 成 器 使 用 。 


© main 函数 中 的 客户 代码 发 送 的 各 个 值 绑 定 到 这 里 的 term 变量 上 。 


O 至 关 重 要 的 终止 条 件 。 如 果 不 这 么 做 ， 使 用 yield from 调用 这 个 
协 程 的 生成 器 会 永远 阻塞 。 


四 返回 的 Result 会 成 为 grouper 函数 中 yield from 表达 式 的 值 。 
© grouper 是 委派 生成 器 。 


O 这 个 循环 每 次 迭代 时 会 新 建 一 个 averager 实例 ; 每 个 实例 都 是 作为 
协 程 使 用 的 生成 器 对 象 。 


@ grouper 发 送 的 每 个 值 都 会 经 由 yield from 处 理 ， 通 过 管道 传 给 
averager 实例 。grouper 会 在 yield from 表达 式 处 和 暂停， 等 待 
averager 实例 处 理 客户 端 发 来 的 值 。averager 实例 运行 完毕 后 ， 返 
回 的 值 绑 定 到 results[key] E. while 循环 会 不 断 创建 averager X 
例 ， 处 理 更 多 的 值 。 


O main 函数 是 客户 端 代 码 ， 用 PEP 380 定义 的 术语 来 说 ， 是 “调用 
方 ”。 这 是 驱动 一 切 的 函数 。 


© group 是 调用 grouper 函数 得 到 的 生成 器 对 象 ， 传 给 grouper 函数 
的 第 一 个 参数 是 results， 用 于 收集 结果 ; 第 二 个 参数 是 某 个 
键 。group 作为 协 程 使 用 。 


O 预 激 group 协 程 。 


D 把 各 个 value 传 给 grouper。 传 入 的 值 最 终 到 达 averager 函数 中 
term = yield 那 一 行 ，grouper 永远 不 知道 传 入 的 值 是 什么 。 


@ jf None 传 入 grouper， 导 致 当前 的 averager 实例 终止 ， 也 让 
grouper 继续 运行 ， 再 创建 一 个 averager 实例 ， 处 理 下 一 组 值 。 


示例 16-17 中 最 后 一 个 标号 前 面 有 个 注释 一 一 “重要 ! ”， 强 调 这 行 代码 

(group.send(None)) 至 关 重 要 : 终止 当前 的 averager 实例 ， 开 始 
执行 下 一 个 。 如 果 注 释 抒 那 一 行 ， 这 个 脚本 不 会 输出 任何 报告 。 此 时 ， 
把 main 函数 靠近 末尾 的 print(results) 那 行 的 注释 去 掉 ， 你 会 发 
Il, results 字典 是 空 的 


A 研究 为 何 没有 收集 到 数据 ， 能 检验 自己 有 没有 理解 yield 
from 结构 的 运作 方式 。 本 书 的 代码 仓库 中 有 coroaverager3.py 脚本 
的 代码 Chttps://github.com/fluentpython/example-code/blob/master/16- 
coroutine/coroaverager3.py) 。 原 因 说 明 如 下 。 


下 面 简 要 说 明示 例 16-17 的 运作 方式 ， 还 会 说 明 把 main 函数 中 调用 
group.send(None) 那 一 行 代 码 〈 带 有 “重要 ! ?注释 的 那 一 行 ) EIS 
发 生 什 么 事 。 


外 层 for 循环 每 次 迭代 会 新 建 一 个 grouper 实例 ， 赋 值 给 group 
变量 ; group 是 委派 生成 器 。 


调用 next(group)， 预 激 委派 生成 器 grouper， 此 时 进入 while 
True 循环 ， 调 用 子 生成 器 averager 后 ， 在 yield from 表达 式 
处 暂停 。 


Ae for 循环 调用 group .send(value)， 直 接 把 值 传 给 子 生 成 器 
averager。 同 时 ， 当 前 的 grouper 实例 (group) Æ yield 
From 表达 式 处 暂 俘 。 


内 层 循环 结束 后 ，group 实例 依旧 在 yield from 表达 式 处 暂停 ， 
KJE, grouper 函数 定义 体 中 为 results[key] 赋值 的 语句 还 没有 
执行 。 


如 果 外 层 for 循环 的 末尾 没有 group.send(None), WA 
averager 子 生 成 器 永远 不 会 终止 ， 委 派生 成 器 group 永远 不 会 再 
次 激活 ， 因 此 永远 不 会 为 results[key] 赋值 。 


外 层 for 循环 重新 迭代 时 会 新 建 一 个 grouper 实例 ， 然 后 绑 定 到 
group 变量 上 。 前 一 个 grouper 实例 (以 及 它 创建 的 尚未 终止 的 
averager 子 生成 器 实例 ) 被 垃圾 回收 程序 回收 。 


i 
Be IOI A RSH INGE ize,» WOR PE as AL IE, RIR 


生成 器 会 在 yield from 表达 式 处 永远 暂停 。 如 果 是 这 样 ， 程 序 不 
会 向 前 执行 ， 因 为 yield from (5 yield 一 样 ) 把 控制 权 转 交 给 


ete ( 即 ， 委 派生 成 器 的 调用 方 ) 了。 显然 ， 肯 定 有 任务 无 法 
完成 。 


示例 16-17 展示 了 yield from 结构 最 简单 的 用 法 ， 只 有 一 个 委派 生成 
器 和 一 个 子 生成 器 。 因 为 委派 生成 器 相当 于 管道 ， 所 以 可 以 把 任意 数量 
个 委派 生成 器 连接 在 一 起 : 一 个 委派 生成 器 使 用 yield from 调用 一 个 
子 生成 器 ， 而 那个 子 生成 器 本 身 也 是 委派 生成 器 ， 使 用 yield from 调 
用 另 一 个 子 生 成 器 ， 以 此 类 推 。 最 终 ， 这 个 链条 要 以 一 个 只 使 用 yield 
表达 式 的 简单 生成 器 结束 ; 不过， 也 能 以 任何 可 迭代 的 对 象 结 束 ， 如 示 
例 16-16 所 示 。 

任何 yield from 链条 都 必须 由 客户 驱动 ， 在 最 外 层 委 派生 成 器 上 调用 
ee) 函数 或 .send(...) FIA. HARRAH, lot AA for 

循环 。 


下 面 综 述 PEP380 对 yield from 结构 的 正式 说 明 。 


16.8 yield from 的 意义 


制定 PEP380 时 ， 有 人 质疑 作者 Greg Ewing 提议 的 语义 过 于 复杂 了 。 他 

的 回应 之 一 是 :“ 对 人 类 来 说 ， 几 乎 所 有 最 重要 的 信息 都 在 靠近 项 部 的 

oe "他 还 引述 了 PEP 380 草稿 中 的 一 段 话 ， 当 时 那 段 话 是 这 
EM. 


“把 迭代 器 当 作 生成 器 使 用 ， 相 当 于 把 子 生 成 器 的 定义 体内 联 在 
yield from 表达 式 中 。 此 外 ， 子 生成 器 可 以 执行 return 语句 ， 
返回 一 个 值 ， 而 返回 的 值 会 成 为 yield from 表达 式 的 值 。”” 


8 摘自 Python-Dev 邮件 列表 中 的 一 个 消息 : “PEP 380 (yield from a subgenerator) comments”( 发 
布 于 2009 年 3 月 21 H, https://mail.python.org/pipermail/python-dev/2009-March/087385.html) 。 


PEP 380 中 己 经 没有 这 上 段 宽 奈 人 心 的 话 ， 因 为 没有 涵盖 所 有 极端 情况 。 
不 过 ， 一 开始 可 以 这 样 粗略 地 说 。 


批准 后 的 PEP 380 在 “Proposal” 一 市 

(https://www.python.org/dev/peps/pep-0380/#proposal) 分 六 点 说 明了 
yield from 的 行为 。 这 里 ,我 几乎 原封 不 动 地 引述 ， 不 过 把 有 卜 义 
的 “迭代 器 "一 词 都 换 成 了 “ 子 生 成 右 ”， 还 做 了 进一步 说 明 。 示 例 16-17 
曾 明 了 下 述 四 点 。 


。 了 生成 器 产 出 的 值 都 直接 传 给 委派 生成 器 的 调用 方 ( 即 客户 端 代 
码 ) 。 


使 用 send() 方法 发 给 委派 生成 器 的 值 都 直接 传 给 子 生 成 器 。 如 果 
发 送 的 值 是 None， 那 么 会 调用 子 生成 器 的 ”next _() 方法 。 如 
果 发 送 的 值 不 是 None， 那 么 会 调用 子 生 成 器 的 send() 方法 。 如 

果 调 用 的 方法 抛 出 StopIteration 异常 ， 那 么 委派 生成 器 恢复 运 
行 。 任 何其 他 异常 都 会 向 上 冒 泡 ， 传 给 委派 生成 器 。 


。 生 成 器 退出 时 ， 生 成 器 《或 子 生 成 器 ) 中 的 return expr 表达 式 
会 触发 StopIteration(expr) 异常 抛 出 。 


e yield from 表达 式 的 值 是 子 生 成 器 终止 时 传 给 StopIteration 


FGI TSR 
yield from 结构 的 妃 外 两 个 特性 与 民利 和 终止 有 关 。 


。 传 入 委派 生成 器 的 异常 ， 除 了 GeneratorExit 之 外 都 传 给 子 生成 
器 的 throw() 方法 。 如 果 调 用 throw() 方法 时 抛 出 
StopIteration 异常 ， 委 派生 成 器 恢复 运行 。StopIteration 之 
外 的 异常 会 向 上 冒 泡 ， 传 给 委派 生成 器 。 


e 如果 把 GeneratorExit 异常 传 入 委派 生成 费 ， 或 者 在 委派 生成 占 
上 调用 close() 方法 ， 那 么 在 子 生成 器 上 调用 close() 方法 ， 如 
果 它 有 的 话 。 如 果 调 用 close() FESR HM, BARS 
向 上 冒 泡 ， 传 给 委派 生成 器 ， 否则， 委派 生成 器 抛 出 


GeneratorExit 异常 。 


yield from 的 具体 语义 很 难 理解 ， 尤 其 是 处 理 异常 的 那 两 点 。Greg 
Ewing 做 得 很 好 ， 在 PEP 380 中 使 用 英语 阐述 了 yield from 的 语义 。 


Ewing 还 使 用 伪 代 码 (使 用 Python 句法 ) 演示 了 yield from 的 行为 。 
我 个 人 认为 值得 花 时 间 研 究 PEP 380 中 的 伪 代 码 。 不 过 ， 那 段 伪 代码 长 
IK 40 行 ， 看 一 遍 很 难 理解 。 


知 想 研 究 那 段 伪 代 码 ， 最 好 将 其 简化 ， 只 涵盖 yield from 最 基本 有 日 最 
常见 的 用 法 。 


假设 yield from 出 现在 委派 生成 嚣 中。 客户 端 代码 驱动 着 委派 生成 
器 ， 而 委派 生成 器 驱动 着 子 生 成 器 。 那 么 ， 为 了 简化 涉及 到 的 逻辑 ， 我 
们 假设 客户 端 没 有 在 委派 生成 器 上 调用 .throw(...) 或 .close() Ù 
法 。 此 外 ， 我 们 还 假设 子 生成 器 不 会 抛 出 异常 ， 而 是 一 直 运 行 到 终止， 
让 解释 器 抛 出 StopIteration 异常 。 


示例 16-17 中 的 脚本 就 做 了 这 些 简化 逻辑 的 人 假设。 其实， 在 真实 的 代码 
中 ， 委 派生 成 器 应 该 运行 到 结束 。 下 面 来 看 一 下 在 这 个 简化 的 美满 世界 
H, yield from 是 如 何 运作 的 。 


请 看 示例 16-18， 那 里 列 出 的 代码 是 委派 生成 器 的 定义 体 中 下 面 这 一 行 
代码 的 扩充 : 


RESULT = yield from EXPR 


目 己 试 着 理解 示例 16-18 中 的 逻辑 。 


示例 16-18 简化 的 伪 代 人 码 ， 秆 效 于 委派 生成 器 中 的 RESULT = 
yield from EXPR 语句 (这 里 针对 的 是 最 简单 的 情况 : 不 文 持 
.throw(...) 和 .close() 方法 ， 而 且 只 处 理 StopIteration 噶 
T) 


i = iter(EXPR) © 
try: 
y= next(_i) @ 
except StopIteration as e: 
r= evalue © 
else: 
while 1: @ 
_s=yield_y © 
try: 
y= _i.send(_s) © 
except StopIteration as e: @ 
_r = _e.value 
break 


RESULT = r O 


@ EXPR DEE IEMA, AAR a _i (这 是 子 生成 
at) 使 用 的 是 iter() 函数 。 


O 预 激 子 生 成 器 ; 结果 保存 在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 


© 如 果 抛 出 stopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 
给 _r 一 一 这 是 最 简单 情况 下 的 返回 值 CRESULT) 。 

O 运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生 成 器 之 
间 的 通道 。 

O 产 出 子 生 成 器 当前 产 出 的 元 素 ， 等 待 调 用 方 发 送 _s 中 保存 的 值 。 注 
意 ， 这 个 代码 清单 中 只 有 这 一 个 yield 表达 式 。 


@ 尝试 让 子 生成 器 同 前 执行 ， 转 发 调用 方 发 送 的 _s。 


@ 如 果子 生成 器 抛 出 StopIteration 异常 ， 获 取 value 属性 的 值 ， 赋 
值 给 _r， 然 后 退出 循环 ， 让 委派 生成 器 恢复 运行 。 


Q 返回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 
在 这 段 简化 的 伪 代 码 中 ， 我 保留 了 PEP 380 中 那 段 伪 代 码 使 用 的 变量 名 


_i G&A at) 
子 生成 器 
y COFEE) 
子 生 成 器 产 出 的 值 
r GER) 
最 终 的 结果 〈 即 子 生 成 器 运行 结束 后 yield from 表达 式 的 值 ) 
_s〔 发 送 的 值 ) 
调用 方 发 给 委派 生成 器 的 值 ， 这 个 值 会 转发 给 子 生 成 器 


_e (FR) 
异常 对 象 ( 在 这 上 段 简化 的 伪 代 码 中 始终 是 Stoplteration 实例 ) 


除了 没有 处 理 .throw(...) 和 .close() 方法 之 外 ， 这 上 段 简化 的 伪 代 
码 还 在 子 生成 器 上 调用 .send(...) 方法 ， 以 此 达到 客户 调用 next() 
函数 或 .send(...) 方法 的 目的 。 首 次 阅读 时 不 要 担心 这 些 细微 的 差 

别 。 前 面 说 过 ， 即 使 yield from 结构 只 做 示例 16-18 中 展示 的 事情 ， 
示例 16-17 也 依旧 能 正常 运行 。 


但 是 ， 现 实情 况 要 复杂 一 些 ， 因 为 要 处 理 客 户 对 .throw(...) 和 
.Close() 方法 的 调用 ， 而 这 两 个 方法 执行 的 操作 必须 传 入 子 生 成 器 。 


此 外 ， 子 生成 器 可 能 只 是 纯粹 的 迭代 器 ， 不 支持 .throw(. ..) 和 
.Close() 方法 ， 因 此 yield from 结构 的 逻辑 必须 处 理 这 种 情况 。 如 
果子 生成 器 实现 了 这 两 个 方法 ， 而 在 子 生 成 器 内 部 ， 这 两 个 方法 都 会 触 
发 异常 抛 出 ， 这 种 情况 也 必须 由 yield from 机 制 处 理 。 调 用 方 可 能 会 
ATCA FE Bas BC ey, SEH yield from 结构 时 也 必须 
处 理 这 种 情况 。 最 后 ， 为 了 优化 ， 如 果 调 用 方 调 用 next(...) 函数 或 
.Send(None) 方法 ， 都 要 转交 职责 ， 在 子 生成 器 上 调用 next(...) K 
数 ; 仅 当 调用 方 发 送 的 值 不 是 None 时 ， 才 使 用 子 生 成 器 的 
.Send(...) 方法。 

为 了 方便 对 比 ， 下 面 列 出 PEP 380 中 扩充 yield from 表达 式 的 完整 伪 
代码 ， 而 且 加 上 了 带 标号 的 注解 。 示 例 16-19 中 的 代码 是 一 字 不 差 复 制 
过 来 的 ， 只 有 标注 是 我 自己 加 的 。 


FRR UL, aN Bil 16-19 中 的 代码 是 委 铂 生成 器 的 定义 体 中 下 面 这 一 个 语 
句 的 扩充 : 


RESULT = yield from EXPR 


示例 16-19 ” 伪 代 码 ， 等 效 于 委派 生成 器 中 的 RESULT = yield 
from EXPR 语句 


i = iter(EXPR) © 
try: 
_y = next(_i) @ 
except StopIteration as e: 
r= _e.value © 
else: 
while 1: © 


try: 
_s=yield_y © 
except GeneratorExit as e: © 
try: 
_m = _i.close 
except AttributeError: 
pass 


except BaseException as e: @ 


_X = sys.exc_info() 
try: 
_m = _i.throw 
except AttributeError: 
raise e 
else: O 
try: 
y = _m(*_x) 
except StopIteration as e: 
_r = _e.value 
break 
else: © 
try: 四 
if s is None: @ 
_y = next(_i) 
else: 
_y = _i.send(_s) 
except StopIteration as e: @ 
_r = _e.value 
break 


RESULT = r @ 


@ EXPR 可 以 是 任何 可 和 迭代 的 对 象 ， 因 为 获取 迭代 器 _i (这 是 子 生成 
at) 使 用 的 是 iter() 函数 。 


O MATERE: 结果 保存 在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 


© 如 果 抛 出 stopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 
给 _r 一 一 这 是 最 简单 情况 下 的 返回 值 CRESULT) 。 


四 运行 这 个 循环 时 ， 委 派生 成 器 会 阻 罕 ， 只 作为 调用 方 和 子 生成 器 之 
间 的 通道 。 


O 产 出 子 生 成 器 当前 产 出 的 元 素 ; 等 待 调用 方 发 送 os 中 保存 的 值 。 这 
个 代码 清单 中 只 有 这 一 个 yield 表达 式 。 


O 这 一 部 分 用 于 关闭 委派 生成 器 和 子 生成 器 。 因 为 子 生成 器 可 以 是 任 
何 可 从 代 的 对 象 ， 所 以 可 能 没有 close 方法 。 


O 这 一 部 分 处 理 调 用 方 通过 .throw(... ) 方法 传 入 的 异常 。 同 样 ， 子 


生成 器 可 以 是 迭代 器 ， 从 而 没有 throw 方法 可 调用 一 一 这 种 情况 会 导 
致 委派 生成 句 抛 出 异常 。 


O 如 果子 生成 器 有 throw 方法 ， 调 用 它 并 传 入 调用 方 发 来 的 异常 。 子 
生成 器 可 能 会 处 理 传 入 的 异常 (然后 继续 循环 ); 可 能 抛 出 
StopIteration 异常 (从 中 获取 结果 ， 赋 值 给 _r， 循 环 结束 ) ; 还 可 
能 不 处 理 ， 而 是 抛 出 相同 的 或 不 同 的 异常 ， 同 上 冒 泡 ， 传 给 委派 生成 
as 


© 如 果 产 出 值 时 没有 异常 .……… 
O 尝试 让 子 生成 器 向 前 执行 .………. 


@ 如 果 调 用 方 最 后 发 送 的 值 是 None， 在 子 生 成 器 上 调用 next 函数 ， 
否则 调用 send 方法 。 


@ 如 果子 生成 器 抛 出 StopIteration 异常 ， 获 取 value JE PERJE, IR 
值 给 Fr， 然后 退出 循环 ， 让 委派 生成 器 恢复 运行 。 


图 返回 的 结果 (RESULT) 是 _F， 即 整个 yield from 表达 式 的 值 。 


这 段 yield from 伪 代 人 码 的 大 多 数 逻 辑 通 过 六 个 try/except 块 实现 ， 
而 且 舱 套 了 四 层 ， 因 此 有 点 难以 阅读 。 此 外 ， 用 到 的 其 他 流程 控制 关键 
字 有 一 个 while、 一 个 if 和 一 个 yield。 找 到 while IF, yield # 
达 式 以 及 next(...) 函数 和 .send(...) 方法 调用 ， 这 些 代 码 有 助 于 
对 yield from 结构 的 运作 方式 有 个 整体 的 了 解 。 


就 在 示例 16-19 所 列 伪 代码 的 顶部 ， 有 行 代码 〈 标 号 灸 ) 揭示 了 一 个 重 
要 的 细节 : 要 预 激 子 生 成 器 。? 这 表明 ， 用 于 自动 预 激 的 装饰 器 (如 
16.4 节 定 义 的 那个 ) 5 yield from 结构 不 兼容 。 


cit 


?Nick Coghlan 于 2009 年 4 月 5 日 在 Python-ideas 邮件 列表 中 发 布 的 一 个 消 
(https://mail. python. org/pipermail/python-ideas/2009-A pril/003954.html) 中 质疑 ，yiel1d from 结构 
隐 式 预 激 是 不 是 好 主意 。 


在 本 节 开 头 引 用 的 那个 消息 中 (https://mail.python.org/pipermail/python- 
dev/2009-March/087385.html) ， 关 于 扩充 yield from 结构 的 伪 代 码 ， 
Greg Ewing 说 : 


我 不 是 让 你 通过 扩充 的 伪 代 码 学 习 这 个 结构 ， 那 段 伪 代码 是 为 了 让 
语言 专家 弄 明 白 细 市 。 


仔细 研究 扩充 的 伪 代 码 可 能 没什么 用 一 一 这 与 你 的 学 习 方式 有 关 。 显 
然 ， 分 析 真 正 使 用 yield from 结构 的 代码 要 比 深入 研究 实现 这 一 结构 
的 伪 代 码 更 有 好 处 。 不 过 ， 我 见 过 的 yield from 示例 几乎 都 使 用 
asyncio 模块 做 异步 编程 ， 因 此 要 有 有 效 的 事件 循环 才能 运行 。 第 18 
章 会 多 次 用 到 yield from 结构 。16.11 节 中 有 几 个 链接 ， 指 向 使 用 
yield from 结构 的 一 些 有 趣 代 码 ， 而 且 无 需 事件 循环 。 


下 面 分 析 一 个 使 用 协 程 的 经 典 采 例 : 仿真 编程 。 这 个 案例 没有 展示 


yield from 结构 的 用 法 ， 但 是 揭示 了 如 何 使 用 协 程 在 单个 线程 中 管理 
并 发 活动 。 


使 用 采 例 : 使 用 协 程 做 离散 事件 仿 


协 程 能 自然 地 表述 很 多 算法 ， 例 如 仿真 、 游 戏 、 异 步 WO， 以 及 其 
他 事件 驱动 型 编程 形式 或 协作 式 多 任务 。 


—— Guido van Rossum 和 Phillip J. Eby 
PEP 342—CCoroutines via Enhanced Generators 


10pEP 342 Chttps://www.python.org/dev/peps/pep-0342/) 中 “Motivationm”" 一 节 开 头 的 第 一 句 话 。 


本 节 我 会 说 明 如 何 只 使 用 协 程 和 标准 库 中 的 对 象 实现 一 个 特别 简单 的 仿 
真 系统 。 在 计算 机 科学 领域 ， 仿 真是 协 程 的 经 典 应 用 。 第 一 门面 器 对 象 
的 语言 Simula 引入 了 协 程 这 个 概念 ， 目 的 就 是 为 了 文 持 仿真 。 


` 下 述 仿真 示例 不 是 为 了 做 学 术 研 究 。 协 程 是 asyncio 包 的 基 
础 构建 。 通 过 仿真 系统 能 说 明 如 何 使 用 协 程 代替 线程 实现 并 发 的 活 
动 ， 而 且 对 理解 第 18 章 讨论 的 asyncio 包 有 极 大 的 帮助 。 


分 析 示 例 之 前 ， 先 简单 介绍 一 下 仿真 。 


16.91 离散 事件 仿真 简介 


离散 事件 仿真 (Discrete Event Simulation, DES) 是 一 种 把 系统 建 模 成 一 
系列 事件 的 仿真 类 型 。 在 离散 事件 仿真 中 ,仿真 “ 钟 * 回 前 推进 的 量 不 是 
固定 的 ， 而 是 直接 推进 到 下 一 个 事件 模型 的 模拟 时 间 。 假 如 我 们 抽象 模 
拟 出 租车 的 运营 过 程 ， 其 中 一 个 事件 是 乘客 上 和 车， 下 一 个 事件 则 是 乘客 
FÆ. DERZEIT 5 分 钟 还 是 50 分 钟 ， 一 旦 乘客 下 和 车， 仿真 钟 就 会 
更 新 ， 指 向 此 次 运营 的 结束 时 间 。 使 用 离散 事件 仿真 可 以 在 不 到 一 秒 钟 
的 时 间 内 模拟 一 年 的 出 租车 运营 过 程 。 这 与 连续 仿真 不 同 ， 连 续 仿 真 的 
仿真 钟 以 固定 的 量 (通常 很 小 ) 不 断 问 前 推进 。 


显然 ， 回 合 制 游戏 就 是 离散 事件 仿真 的 例子 ， 游 戏 的 状态 只 在 玩家 操作 
时 变化 ， 而 且 一 旦 玩家 决定 下 一 步 怎么 走 了 ， 仿 真 钟 就 会 冻结 。 而 实时 


游戏 则 是 连续 仿真 ， 仿 真 钟 一 直 在 运行 ， 游 戏 的 状态 在 一 秒 钟 之 内 更 新 
很 多 次 ， 因 此 反应 慢 的 玩家 特别 吃亏 。 


这 两 种 仿真 类 型 都 能 使 用 多 线程 或 在 单个 线程 中 使 用 面 癌 事件 的 编程 技 
术 〔 例 如 事件 循环 驱动 的 回调 或 协 程 》 实 现 。 可 以 说 ， 为 了 实现 连续 念 
真 ， 在 多 个 线程 中 处 理 实时 并 行 的 操作 更 自然 。 而 协 程 恰好 为 实现 离散 
事件 仿真 提供 了 合理 的 抽象 。SimPylL 是 一 个 实现 离散 事件 仿真 的 
Python 包 ， 通 过 一 个 协 程 表示 离散 事件 仿真 系统 中 的 各 个 进程 。 


也 参见 SimPy 的 官方 文档 Chttps://simpy.readthedocs.org/en/latest/) 。 不 要 和 著名 的 
SymPy Chttp//www.sympy.org) 混 消 了 。SymPy 是 一 个 符号 数学 库 ， 与 DES 无 关 。 


A 在 仿真 领域 ， 进 程 这 个 术语 指 代 模 型 中 茶 个 实体 的 活动 ， 与 
操作 系统 中 的 进程 无 天。 仿真 系统 中 的 一 个 进程 可 以 使 用 操作 系统 
中 的 一 个 进程 实现 ， 但 是 通常 会 使 用 一 个 线程 或 一 个 协 程 实现 。 


如 果 对 仿真 感 兴趣 ， 值 得 研究 一 下 SimPy。 不 过 ， 在 这 一 节 我 会 说 明 如 
何 只 使 用 标准 库 提 供 的 功能 实现 一 个 特别 简单 的 离散 事件 仿真 系统 。 我 
的 目的 是 增进 你 对 使 用 协 程 管理 并 发 操作 的 感性 认 知 。 知 想 理解 下 一 节 
所 讲 的 内 容 ， 要 仔细 研究 ， 不 过 这 一 付出 能 得 到 很 大 回报 ， 让 我 们 洞悉 
asyncio、Twisted 和 Tornado 等 库 是 如 何在 单个 线程 中 管理 多 个 并 发 活 
动 的 。 


16.9.2” 出租 车队 运 营 仿 真 


仿真 程序 taxi_sim.py 会 创建 儿 辆 出 租车 ， 每 辆 车 会 拉 儿 个 乘客 ， 然 后 回 
家 。 出 租车 首先 驶 离 车 库 ， 四 处 徘徊 ， 寻 找 乘客 ， 拉 到 乘客 后 ， 行 程 开 
Oa; 乘客 下 车 后 ， 继 续 四 处 徘徊 。 


四 处 徘徊 和 行程 所 用 的 时 间 使 用 指数 分 布 生 成 。 为 了 让 显示 的 信息 更 加 
整洁 ， 时 间 使 用 取 整 的 分 钟 数 ， 不 过 这 个 仿真 程序 也 能 使 用 浮 点 数 表示 
耗 时 。 每 辆 出 租车 每 次 的 状态 变化 都 是 一 个 事件 。 图 16-3 是 运行 这 
个 程序 的 输出 示例 。 


了 我 不 是 运营 出 租车 队 的 行家 ， 因 此 别 太 在 意 显 示 的 时 间 。 离 散 事件 仿真 经 常 使 用 指数 分 布 。 
你 会 看 到 一 些 非 常 短 的 行程 ， 你 就 假设 那 是 一 个 十 天， 一 些 乘客 坐 出 租车 只 走 了 一 个 街区 。 在 
理想 的 城市 中 ， 即 使 下 雨 也 有 出 租车 。 


$ python3 taxi_sim.py -s 3 
taxi: 0 Event(time=0, proc=0, action='Lleave garage' ) 
taxi: Event(time=2, proc=0, action='pick up passenger’ ) 
Event(time=5, proc=1, action='Leave garage') 
taxi: Event(time=8, proc=1, action='pick up passenger' ) 
taxi: Event(time=10, proc=2, action='leave garage’) 
taxi: Event(time=15, proc=2, action='pick up passenger') 5 
taxi: 
taxi: 
taxi: 
taxi: 2 
taxi: Event(time=27, proc=1, action='drop off passenger') 
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taxi: 2 Event(time=27, proc=2, action='pick up passenger' ) 
taxi: 0 Event(time=28, proc=0, action='pick up passenger ') 
taxi: 2 Event(time=40, proc=2, action='drop off passenger') 
taxi: 2 Event(time=44, proc=2, action='pick up passenger' ) 
taxi: 1 Event(time=55, proc=1, action='pick up passenger') > 
taxi: 1 Event(time=59, proc=1, action='drop off passenger') 
taxi: 0 Event(time=65, proc=0, action='drop off passenger') 
taxi: 1 Event(time=65, proc=1, action='pick up passenger') 
taxi: 2 Event(time=65, proc=2, action='drop off passenger') 
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taxi: 
Event(time=17, proc=2, action='drop off passenger') 
Event(time=18, proc=0, action='drop off passenger') 
Event(time=18, proc=2, action='pick up passenger' ) 
Event(time=25, proc=2, action='drop off passenger') 


taxi: Event(time=72, proc=2, action='pick up passenger') 
taxi: Event(time=76, proc=0, action='going home') 

taxi: Event(time=80, proc=1, action='drop off passenger') 
taxi: Event(time=88, proc=1, action='pick up passenger') 
taxi: Event(time=95, proc=2, action='drop off passenger') 
taxi: Event(time=97, proc=2, action='pick up passenger') 
taxi: Event(time=98, proc=2, action='drop off passenger') 
taxi: Event(time=106, proc=1, action='drop off passenger’) 
taxi: Event(time=109, proc=2, action='going home') 


taxi: Event(time=110, proc=1, action='going home') 


of events *** 

图 16-3: 运行 taxi_simpy 创建 3 辆 出 租车 的 输出 示例 。-s 3 参数 设 
置 随机 数 生 成 器 的 种 子 ， 这 样 在 调试 和 演示 时 可 以 重复 运行 程序 ， 
输出 相同 的 结果 。 不 同 颜色 的 箭头 表示 不 同 出 租车 的 行程 防 


8 图 16-3 的 彩色 图 片 可 从 本 书页 面 httpWwww.ituring.com.cn/book/1564)〉 的 “ 随 书 下 载 ”部 分 获 
取 。 编者 注 


图 16-3 中 最 值得 注意 的 一 件 事 是 ，3 辆 出 租车 的 行程 是 交叉 进行 的 。 那 
些 箭头 是 我 加 上 的 ， 为 的 是 让 你 看 清 各 辆 出 租车 的 行程 : 箭头 从 乘客 上 


车 时 开始 ， 到 乘客 下 车 后 结束 。 有 了 箭头 ， 能 直观 地 看 出 如 何 使 用 协 程 
管理 并 发 的 活动 。 


图 16-3 中 还 有 几 件 事 值 得 注意 。 
。 出 租车 每 隔 $ 分 钟 从 车 库 中 出 发 。 


。0 号 出 租车 2 分 钟 后 拉 到 乘客 (time=2) , 1 号 出 租车 3 分 钟 后 拉 
到 乘客 (time=8) ，2 号 出 租车 $ 分钟 后 拉 到 和 习 客 (time=15) 。 


0 号 出 租车 拉 了 两 个 乘客 〈 紧 色 箭 头 ) : 第 一 个 乘客 从 time=2 时 
上 车 ， 到 time=18 时 下 车 ;第 二 个 乘客 从 time=28 时 上 和 车， 到 
time=65 时 下 车 一 一 这 是 此 次 仿真 中 最 长 的 行程 。 


1 号 出 租车 拉 了 四 个 乘客 〈 绿 色 箭 头 ) ， 在 time=110 时 回 家 。 


2 号 出 租车 拉 了 六 个 乘客 〈 红 色 箭 头 ) ， 在 time=169 时 回 家 。 这 
辆 车 最 后 一 次 行程 从 time=97 时 开始 ， 只 持续 了 一 分 钟 。14 


1 号 出 租车 的 第 一 次 行程 从 time=8 时 开始 ， 在 这 个 过 程 中 2 号 出 
人 (time=10) ， 而 且 完 成 了 两 次 行程 〈 那 两 个 短 的 
红色 箭头 ) 。 


在 此 次 运行 示例 中 ， 所 有 排 定 的 事件 都 在 默认 的 仿真 时 间 内 (180 
分 钟 ) 完成 ， 最 后 一 次 事件 发 生 在 time=110 时 。 


“乘客 是 我 ， 我 发 现 忘 了 带 钱 包 。 


仿真 结束 时 可 能 还 有 未 完成 的 事件 。 如 果 是 这 种 情况 ， 最 后 一 条 消息 会 
是 下 面 这 样 : 


*** end of simulation time: 3 events pending *** 


taxi_sim.py 脚本 的 完整 代码 在 示例 A-6 中 ， 本 章 只 会 列 出 与 协 程 相关 的 
部 分 。 真 正 重 要 的 函数 只 有 两 个 : taxi_process 一 个 协 程 》， 以 及 
执行 仿真 主 循环 的 Simulator.run 方法 。 


示例 16-20 是 taxi_process 函数 的 代码 。 这 个 协 程 用 到 了 别处 定义 的 
两 个 对 象 : compute_delay 函数 ， 返 回 单位 为 分 钟 的 时 间 间 隔 ;，Event 
类 ， 一 个 namedtuple， 定 义 方式 如 下 : 


Event = collections.namedtuple('Event', ‘time proc action') 


在 Event 实例 中 ，time 字段 是 事件 发 生 时 的 仿真 时 间 ，proc 字段 是 出 
租车 进程 实例 的 编号 ，action 字段 是 描述 活动 的 字符 串 。 


下 面 逐 行 分 析 示 例 16-20 中 的 taxi_process K žt. 


示例 16-20 taxi simpy: taxi_process 协 程 ， 实 现 各 辆 出 租车 的 
活动 


def taxi_process(ident, trips, start time=0): © 
""" 每 次 改变 状态 时 创建 事件 ， 把 控制 权 让 给 仿真 器 """ 
time = yield Event(start_time, ident, ‘leave garage') @ 
for i in range(trips): © 
time = yield Event(time, ident, 'pick up passenger') @ 
time = yield Event(time, ident, ‘drop off passenger') © 


yield Event(time, ident, 'going home') © 
# 出 租车 进程 结束 Q 


O 每 辆 出 租车 调用 一 次 taxi_process 函数 ， 创 建 一 个 生成 器 对 象 ， 
表示 各 辆 出 租车 的 运营 过 程 。ident 是 出 租车 的 编号 (如 上 述 运行 示例 
中 的 0、1、2) ; trips 是 出 租车 回 家 之 前 的 行程 数量 ; start_time 
是 出 租车 离开 车 库 的 时 间 。 

© 产 出 的 第 一 个 Event 是 "leave garage' 。 执 行 到 这 一 行 时 ， 协 程 
会 暂停 ， 让 仿真 主 循环 着 手 处 理 排 定 的 下 一 个 事件 。 需 要 重新 激活 这 个 
进程 时 ， 主 循环 会 发 送 ( 使 用 send 方法 ) 当前 的 仿真 时 间 ， 赋 值 给 


time. 
O BEAT FEAT m TK PR 


四 产 出 一 个 Event 实例 ， 表 示 拉 到 乘客 了 。 协 程 在 这 里 和 暂停。 需要 重 


新 激活 这 个 协 程 时 ， 主 循环 会 及 送 〈 使 用 send 方法 ) 当前 的 时 间 。 


O 产 出 一 个 Event Xj, RRRA FEIT. WEEKE HF, FIFE 
循环 发 送 时 间 ， 然 后 重新 激活 。 


@ 指定 的 行程 数量 完成 后 ，for 循环 结束 ， 最 后 产 出 "going home’ 
事件 。 此 时 ， 协 程 最 后 一 次 暂停 。 仿 真主 循环 发 送 时 间 后 ， 协 程 重 新 激 
活 ; 不 过 ， 这 里 没有 把 产 出 的 值 赋值 给 变量 ， 因 为 用 不 到 了 。 

O 协 程 执行 到 最 后 时 ， 生 成 器 对 象 扫 出 StopIteration 异常 。 


你 可 以 在 Python 控制 台中 调用 taxi_process 函数 ， 自 己 “ 驾 
驶 ”(drive) 一 辆 出 租车 念 ， 如 示例 16-21 所 示 。 


5 描述 协 程 的 操作 时 经 常 使 用 “drive” 这 个 动词 ， 例 如 ;客户 代码 把 值 发 给 协 程 ， 驱 动 协 程 。 在 
示例 16-21 中 ， 客 户 代 码 是 你 在 控制 台中 输入 的 代码 。 (drive 一 词 有 不 同 的 含义 ， 因 此 在 不 同 
的 语 境 中 有 不 同 的 译 法 ， 例 如 这 个 脚注 所 在 的 那 句 话 中 译 为 “各 驶 ”。 译 者 注 ) 


=, 


示例 16-21 了 驱动 taxi_process 协 程 


>>> from taxi_sim import taxi_process 
>>> taxi = taxi_process(ident=13, trips=2, start time=0) © 
>>> next(taxi) @ 
Event(time=@, proc=13, action='leave garage’ ) 
>>> taxi.send(_.time + 7) © 
Event(time=7, proc=13, action='pick up passenger') @ 
>>> taxi.send(_.time + 23) © 
Event (time=30, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 5) © 
Event (time=35, proc=13, action='pick up passenger’ ) 
>>> taxi.send(_.time + 48) @ 
Event (time=83, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home') © 
>>> taxi.send(_.time + 10) © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


@ 创建 一 个 生成 器 对 象 ， 表 示 一 辆 出 租车 。 这 辆 出 租车 的 编写 是 
13 (ident=13) ， 从 t=8 时 开始 工作 ， 有 两 次 行程 。 


O 预 激 协 程 ; 产 出 第 一 个 事件 。 


O 现在 可 以 发 送 当 前 时 间 。 在 控制 台中 ，_ 变量 绑 定 的 是 前 一 个 结 
这 里 我 在 时 间 上 加 7， 意 思 是 这 辆 出 租车 7 分钟 后 找到 第 一 个 乘客 。 


O 这 个 事件 由 For 循环 在 第 一 个 行程 的 开头 产 出 。 

O 发 送 _.time + 23， 表 示 第 一 个 乘客 的 行程 持续 了 23 分 钟 。 
@ 然后 ， 这 辆 出 租车 会 徘徊 5 分 钟 。 

@ 最 后 一 次 行程 持续 48 分 钟 。 

O 两 次 行程 完成 后 ，for 循环 结束 ， 产 出 'going home' 事件 。 


如果 尝试 再 把 值 帮 给 协 程 ， 会 执行 到 协 程 的 末尾 。 协 程 返回 后 ， 解 
释 器 会 抛 出 StopIteration 异常 。 


注意 ， 在 示例 16-21 中 ， 我 使 用 控制 台 模 拟 仿 真主 循环 。 我 从 taxi 协 
程 产 出 的 Event 实例 中 获取 .time 属性 ， 随 意 与 一 个 数 相 加 ， 然 后 调 
用 taxi.send 方法 发 送 两 数 之 和 ， 重 新 激活 协 程 。 在 这 个 仿真 系统 
中 ， 各 个 出 租车 协 程 由 Simulator .run 方法 中 的 主 循环 驱动 。 仿 

真 “ 钟 ” 保 存在 sim_time 变量 中 ， 每 次 产 出 事件 时 都 会 更 新 仿真 钟 。 


为 了 实例 化 Simulator 类 ，taxi sim.py 脚本 的 main 函数 构建 了 一 个 
taxis 字典 ， 如 下 所 示 : 


taxis = {i: taxi process(i, (i + 1) * 2, i * DEPARTURE INTERVAL) 
for i in range(num taxis)} 


sim = Simulator(taxis) 


DEPARTURE_INTERVAL 的 值 是 5; WR num_taxis 的 值 与 前 面 的 运行 
示例 一 样 也 是 3， 这 三 行 代 码 的 作用 与 下 述 代码 一 样 : 


taxis = {@: taxi_process(ident=@, trips=2, start time=6)， 
1: taxi_process(ident=1, trips=4, start_time=5), 
2: taxi_process(ident=2, trips=6, start_time=10)} 
sim = Simulator(taxis) 


[L E 


因此 ，taxis 字典 的 值 是 三 个 参数 不 同 的 生成 器 对 象 。 例 如 ，1 号 出 租 
车 从 start_time=5 时 开始 ， 寻 找 四 个 乘客 。 构 建 Simulator 实例 只 
需 这 个 字典 参数 。 


Simulator. init _ 方法 如 示例 16-22 所 示 。Simulator 类 的 主要 数据 
结构 如 下 。 


self.events 

PriorityQueue 对 象 ， 保 存 Event 实例 。 元 素 可 以 放 进 (使 用 
put 方法 ) PriorityQueue 对 象 中 ， 然 后 按 item[8] CB Event 对 象 
HJ time 属性 〉 依 序 取出 (使 用 get TIE) 。 


self.procs 


一 个 字典 ， 把 出 租车 的 编号 映射 到 仿真 过 程 中 激活 的 进程 (表示 出 
租车 的 生成 器 对 象 ) 。 这 个 属性 会 绑 定 前 面 所 示 的 taxis 字典 副本 。 


示例 16-22 taxi simpy: Simulator 类 的 初始 化 方法 


class Simulator: 


def _ init__(self, procs_map): 


self.events = queue.PriorityQueue() © 
self.procs = dict(procs_ map) @ 


@ 保存 排 定 事件 的 PriorityQueue 对 象 ， 按 时 间 正 向 排序 。 


@ 获取 的 procs_map 参数 是 一 个 字典 《或 其 他 上 映射) ， 可 是 又 从 中 构 
建 一 个 字典 ， 创 建 本 地 副本 ， 因 为 在 仿真 过 程 中 ， 出 租车 回 家 后 会 从 
self.procs 属性 中 移 除 ， 而 我 们 不 想 修 改 用 户 传 入 的 对 象 。 


优先 队列 是 离散 事件 仿真 系统 的 基础 构件 : 创建 事件 的 顺序 不 定 ， 放 入 
这 种 队列 之 后 ， 可 以 按照 各 个 事件 排 定 的 时 间 顺 序 取出 。 例 如 ， 可 能 会 
把 下 面 两 个 事件 放 入 优先 队列 : 


Event(time=14, proc=@, action='pick up passenger’ ) 


Event(time=11, proc=1, action='pick up passenger’ ) 


这 两 个 事件 的 意思 是 ，0 号 出 租车 14 分 钟 后 拉 到 第 一 个 乘客 ， 而 1 号 
出 租车 〈time=16 时 出 发 ) 1 分 钟 后 Ctime=11) 拉 到 乘客 。 如 果 这 两 
个 事件 在 队列 中 ， 主 循环 从 优先 队列 中 获取 的 第 一 个 事件 将 是 


Event(time=11, proc=1, action='pick up passenger'). 


下 面 分 析 这 个 仿真 系统 的 主 算法 Simulator.run 方法。 在 main % 
数 中 ， 实 例 化 Simulator 类 之 后 立即 就 调用 了 这 个 方法 ， 如 下 所 示 : 


sim.run(end_time) 

Simulator 类 带 有 注解 的 代码 清单 在 示例 16-23 中 ， 下 面 先 概述 
Simulator.run 方法 实现 的 算法 。 

(1) 迭代 表示 各 辆 出 租车 的 进程 。 


a. 在 各 辆 出 租车 上 调用 next() 函数 ， 预 激 协 程 。 这 样 会 产 出 各 辆 
出 租车 的 第 一 个 事件 。 


b. 把 各 个 事件 放 入 Simulator 类 的 self.events 属性 (队列 ) 
中 。 


(2) 满足 sim_time < end_time 条 件 时 ， 运 行 仿真 系统 的 主 循环 。 
a. 检查 self.events 属性 是 否 为 空 ， 如 果 为 空 ， 跳 出 循环 。 


b. 从 self.events 中 获取 当前 事件 (current_event) ， 即 
PriorityQueue 对 象 中 时 间 值 最 小 的 Event 对 象 。 


c. 显示 获取 的 Event 对 象 。 


d. 获 取 current_event 的 time 属性 ， 更 新 仿真 时 间 。 


e. 把 时 间 发 给 current_event 的 proc 属性 标识 的 协 程 ， 产 出 下 一 
个 事件 (next_event) 。 


f 把 next_event 添加 到 self.events 队列 中 ， 排 定 
next_event. 


Simulator 类 完整 的 代码 如 示例 16-23 所 示 。 


示例 16-23 taxi simpy: Simulator， 一 个 简单 的 离散 事件 仿真 
类 ;关注 的 重点 是 run 方法 


class Simulator: 


def _init (self, procs_map): 


def 


self.events = queue.PriorityQueue() 
self.procs = dict(procs map) 


run(self, end time): @ 
""" 排 定 并 显示 事件 ， 直 到 时 间 结 束 """ 
# 排 定 各 辆 出 租车 的 第 一 个 事件 


for , proc in sorted(self.procs.items()): @ 


first_event = next(proc) © 
self.events.put(first_event) @ 


# 这 个 仿真 系统 的 主 循环 
sim time = 6 © 
while sim time < end time: © 


if self.events.empty(): @ 
print('*** end of events ***') 
break 


current_event = self.events.get() © 
sim time, proc_id, previous action = current_event © 
print('taxi:', proc_id, proc_id * ' ', current_event) 四 
active proc = self.procs[proc_id] o 
next time = sim time + compute_duration(previous_action) @ 
try: 

next_event = active _proc.send(next_time) © 
except StopIteration: 

del self.procs[proc_id] @ 
else: 

self.events.put(next_event) © 


else: © 


msg = '*** end of simulation time: {} events pending ***' 


print(msg.format(self.events.qsize())) 


O run 方法 只 需要 仿真 结束 时 间 Cend time) 这 一 个 参数 。 


© 使 用 sorted 函数 获取 self.procs 中 按键 排序 的 元 素 ， 用 不 到 键 ， 
因此 赋值 给 _。 


© 调用 next(proc) 预 激 各 个 协 程 ， 辐 前 执行 到 第 一 个 yield 表达 
式 ， 做 好 接收 数据 的 准备 。 产 出 一 个 Event 对 象 。 


O 把 各 个 事件 添加 到 self.events 属性 表示 的 PriorityQueue 对 象 
中 。 如 示例 16-20 中 的 运行 示例 ， 各 辆 出 租车 的 第 一 个 事件 是 ' leave 


garage '。 

四 把 sim time 变量 〈 仿 真 钟 ) JAZ. 

@ 这 个 仿真 系统 的 主 循环 : sim_time 小 于 end_time 时 运行 。 
O 如 果 队 列 中 没有 未 完成 的 事件 ， 退 出 主 循环 。 

O 获取 优先 队列 中 time 属性 最 小 的 Event 对 象 ， 这 是 当前 事件 


(current_event) 。 


© IFE Event 对 象 中 的 数据 。 这 一 行 代 人 码 会 更 新 仿真 钟 sim_time， 对 
应 于 事件 发 生 时 的 时 间 。 


1 这 通常 是 离散 事件 仿真 : 每 次 循环 时 仿真 钟 不 会 以 固定 的 量 推进 ， 而 是 根据 各 个 事件 持续 的 
时 间 推 进 。 


O 显示 Event 对 象 ， 指 明 是 哪 辆 出 租车 ， 并 根据 出 租车 的 编号 缩 进 。 
@ 从 self.procs 字典 中 获取 表示 当前 活动 的 出 租车 的 协 程 。 
@ 调用 compute_duration(...) 函数 ， eae 


W, ‘pick up passenger'. ‘drop off passenger' ， 把 结果 
加 到 sim_ time 上 ， 计 算出 下 一 次 活动 的 时 间 。 


O 把 计算 得 到 的 时 间 发 给 出 租车 协 程 。 协 程 会 产 出 下 一 个 事件 
(next_event) ， 或 者 抛 出 StopIteration 异常 (完成 时 ) 。 


D 如 果 抛 出 了 StopIteration 异常 ， 从 self.procs 字典 中 删除 那个 
协 程 。 


和 否则， 把 next_event 放 入 队列 中 。 


O 如 果 循 环 由 于 仿真 时 间 到 了 而 退出 ， 显 示 待 完成 的 事件 数量 《有 时 
可 能 碰巧 是 零 )。 


注意 ， 示 例 16-23 中 的 simulator.run 方法 有 两 处 用 到 了 第 15 章 介 绍 
的 else 块 ， 而 且 都 不 在 if 语句 中 。 


。 主 while 循环 有 一 个 else 语句 ， 报 告 仿真 系统 由 于 a 到达 结 束 时 间 
而 结束 ， 而 不 是 由 于 没有 事件 要 处 理 而 结束 。 


。 靠近 主 while 循环 底部 那个 try 语句 把 next_time 发 给 当前 的 出 
租车 进程 ， 尝 试 获取 下 一 个 事件 (Cnext_event) ， 如 果 成 功 ， 执 
行 else 块 把 next_event JA self.events 队列 中 。 


觉得 ， 如 果 没 有 这 两 个 else 块 ，Simulator.run 方法 的 代码 会 有 点 
难以 阅读 。 


这 个 示例 的 要 冒 是 说 明 如 何在 一 个 主 循环 中 处 理事 件 ， 以 及 如 何 通过 发 
enh dle 这 是 asyncio 包 底 层 的 基本 思想 ， 我 们 在 第 18 章 会 
学 习 这 个 包 。 


16.10 本章 小 结 
Guido van Rossum 写 道 ， 生 成 器 有 三 种 不 同 的 代码 编写 风格 : 
有 传统 的 “ 拉 取 式 ”( 迭 代 器 〉、“ 推 送 式 ”( 例 如 计算 平均 值 那 个 示 


例 ) ， 还 有 “任务 式 ” ( 读 过 Dave Beazley 写 的 协 程 教程 了 
吗 ...... Pa 


1748) A X} Python-ideas 邮件 列表 中 “Yield-From: Finalization guarantees” 消 息 的 回复 
Chttps://mail.python.org/pipermail/python-ideas/2009-A pril/003884.html) > Guido 所 说 的 David 

Beazley 写 的 教程 是 “A Curious Course on Coroutines and 

Concurrency” (http//www.dabeaz.com/coroutines/) o 


第 14 wee Sia as, ASIP 六 推送 式 ” 协 程 ， 还 介绍 了 特 
别 简 单 的 “任务 式 ” 一 一 仿真 示例 中 的 出 租车 进程 。 第 18 BESS LEFF Si 
程 中 使 用 这 两 种 技术 实现 异步 任务 。 


计算 移动 平均 值 的 示例 展示 了 协 程 的 常见 用 途 : 累加 器 ， 处 理 接收 到 的 
值 。 我 们 知道 ， 可 以 在 协 程 上 应 用 装饰 右 ， 预 激 协 程 ;， 在 某 些 情况 下 ， 

这 么 做 更 方便 。 不 过 要 记 住 ， 预 激 装 饰 器 与 协 程 的 菜 些 用 法 不 兼容 。 尤 
其 是 yield from subgenerator()， 这 个 结构 假定 subgenerator 没 


AO Ma ANH. 


每 次 调用 send 方法 时 ， 作 为 累加 器 使 用 的 协 程 可 以 获取 部 分 结果 ， 不 
过 能 返回 值 的 协 程 更 有 用 。 这 个 特性 在 PEP380 中 定义 ， 于 Python 3.3 
引入 。 我 们 知道 ， 现 在 生成 器 中 的 return the_result 语句 会 抛 出 
StopIteration(the_result) 异常 ， 这 样 调用 方 可 以 从 异常 的 value 
属性 中 获取 the_result。 这 样 获 取 协 程 的 结果 还 是 很 抹 烦 ， 不 过 PEP 
380 引入 的 yield from 句法 能 自动 处 理 。 


探讨 yield from 结构 时 ， 我 们 首先 从 使 用 简单 的 从 代 器 的 示例 入 手 ， 
然后 又 举 了 一 个 例子 ， 重 点 说 明 yield from 结构 的 三 个 主要 组 件 ， 委 
派生 成 器 〈 在 定义 体 中 使 用 yield from) , yield from 激活 的 子 生 
成 器 ， 以 及 通过 委派 生成 器 中 yield from 表达 式 架 设 起 来 的 通道 把 值 
发 给 子 生 成 器 ， 从 而 驱动 整个 过 程 的 客户 代码 。 最 后 ， 那 一 节 参 照 PEP 
380 中 使 用 的 英语 和 类 似 Python 的 伪 代 码 分 析 了 yield from 结构 的 正 


本 章 最 后 举 了 一 个 离散 事件 仿真 示例 ， 说 明 如 何 使 用 生成 器 代 蔡 线程 和 
回调 ， 实 现 并 发 。 那 个 出 租车 仿真 系统 虽然 简单 ， 但 是 首次 一 完了 事件 
驱动 型 框架 (如 Tornado 和 asyncio) 的 运作 方式 : 在 单个 线程 中 使 用 
一 个 主 循环 驱动 协 程 执行 并 发 活动 。 使 用 协 程 做 面向 事件 编程 时 ， 协 程 
会 不 断 把 控制 权 让 步 给 主 循环 ， 激 活 并 辐 前 运行 其 他 协 程 ， 从 而 执行 各 
个 并 发 活动 。 这 是 一 种 协作 式 多 任务 : 协 程 显 式 目 主 地 把 控制 权 让 步 给 
中 央 调 度 程 序 。 而 多 线程 实现 的 是 抢占 式 多 任务 。 调 度 程 序 可 以 在 任何 
时 刻 和 暂停 线程 〈 即 使 在 执行 一 个 语句 的 过 程 中 ) ， 把 控制 权 让 给 其 他 线 


程 。 


最 后 要 说 明 一 点 ， 本 章 对 协 程 的 定义 是 宽泛 的 、 不 正式 的 ， 即 : 通过 客 
户 调用 .send(...) 方法 发 送 数据 或 使 用 yield from 结构 驱动 的 生成 
are. SERB, “PEP 342— Coroutines via Enhanced 
Generators” Chttps://www.python.org/dev/peps/pep-0342/) 和 现 有 的 大 多 
数 Python 书籍 都 使 用 这 个 宽泛 的 定义 。 第 18 章 介绍 的 asyncio 库 建 构 
在 协 程 之 上 ， 不 过 采用 的 协 程 定 义 更 为 严格 : 在 asyncio 库 中 ， 协 程 
(通常 ) 使 用 @asyncio. coroutine 装饰 器 装饰 ， 而 且 始终 使 用 
yield from 结构 驱动 ， 而 不 通过 直接 在 协 程 上 调用 .send(...) 方法 
驱动 。 当 然 ， 在 asyncio 库 的 底层 ， 协 程 使 用 next(...) 函数 和 
.send(...) 方法 驱动 ， 不 过 在 用 户 代码 中 只 使 用 yield from 结构 驱 
动 协 程 运行 。 


16.11 延伸 阅读 


David Beazley 是 Python 生成 器 和 协 程 的 终极 权威 。 他 与 Brian Jones 合 
著 的 《Python Cookbook (45 3 版) 中 文 版 》 一 书 中 有 很 多 使 用 协 程 编写 
HAIS. Beazley 在 PyCon 期 间 开 设 的 课程 兼 有 深度 和 广度 ， 因 此 享有 
盛名 。 首 先是 PyCon US 2008 期 间 的 “Generator Tricks for Systems 
Programmers” 课 程 Chttp://www.dabeaz.com/generators/) ， 在 PyCon US 
2009 期 间 又 开设 了 声名 远 播 的 “A Curious Course on Coroutines and 
Concurrency” RFE 〈http:/www.dabeaz.comrycoroutines/， 三 个 部 分 的 全 部 
视频 链接 很 难 找 到 : 第 一 部 分 ，http://pyvideo.org/video/213; 第 二 部 

分 ，http://pyvideo.org/video/215; 第 三 部 

分 ，http://pyvideo.org/video/214) 。 他 最 新 的 课程 在 蒙特 利 尔 PyCon 
2014 期 间 开 设 ， 题 为 “Generators: The Final 

Frontier” Chttp://www.dabeaz.com/finalgenerator/) 。 在 这 个 课程 中 ， 他 举 
了 更 多 并 发 的 例子 ， 因 此 与 本 书 第 18 章 的 话题 联系 更 大 。 他 根本 不 担 
心 学 员 的 大 脑 会 爆炸 ， 因 此 在 “The Final Frontier” 课 程 的 最 后 一 部 分 用 协 
程 代 替 了 经 典 的 访问 者 模式 ， 用 于 计算 算术 表达 式 。 


使 用 协 程 能 以 多 种 新 方式 组 织 代 码 ， 不 过 与 递归 和 多 态 〈 动 态 调度 ) 一 

样 ， 要 花 点 时 间 才 能 习惯 。James Powell 写 了 一 篇 文章 ， 题 为 “Greedy 

algorithm with 

coroutines” Chttp://seriously.dontusethiscode.com/2013/05/01/greedy- 

coroutine.html) 。 他 在 这 篇 文章 中 使 用 协 程 重 写 了 经 典 的 算法 。 你 可 能 

还 想 浏 览 ActiveState Code 诀窍 数据 库 
Chttps://code.activestate.com/recipes/) 中 标记 为 协 程 的 流行 诀 窑 
Chttps://code.activestate.com/recipes/tags/coroutine/) o 


Paul Sokolovsky 为 Damien George 开发 的 超级 精简 的 

MicroPython (http:/micropython.org/， 针 对 微 控制 器 ) 解释 器 实现 了 
yield from 结构 。 在 研究 这 个 特性 的 过 程 中 ， 他 制作 了 非常 详细 的 示 
意图 (https://dl.dropboxusercontent.com/u/44884329/yield-from.pdf) ， 解 
说 yield from 结构 的 工作 原理 ， 并 在 python-tulip 邮件 列表 中 分 享 。 
Sokolovsky 很 友好 ， 人 允许 我 把 那个 PDF 文件 复制 到 本 书 的 网 站 中 ， 那 个 
文件 的 固定 链接 是 http://flupy.org/resources/yield-from.pdf。 


写作 本 书 时 ， 只 有 asyncio 库 本 身 和 使 用 这 个 库 的 代码 大 量 使 用 
yield from。 我 花 了 很 多 时 间 ， 想 找到 不 依赖 asyncio 库 的 yield 
from 示例 。Greg Ewing (PEP 380 的 作者 ， 为 CPython 实现 了 yield 
from) 发 表 了 一 些 yield from 的 使 用 示例 

Chttp://www.cosc.canterbury.ac.nz/greg.ewing/python/yield- 
fronvyield_fromhtml) : BinaryTree 类 、 一 个 简单 的 XML 解析 器 和 一 
个 任务 调度 程序 。 


Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 
效 方法 》 一 书 中 的 第 40 条 短小 精辟 ， 题 为 “考虑 用 协 程 来 并 发 地 运行 多 
个 函数 "(网 上 有 人 免费 的 英文 版 样 
章 ，http://www.effectivepython.com/2015/03/10/consider-coroutines-to-run- 
many-functions-concurrently/〉。 这 一 节 中 使 用 yield from 驱动 生成 器 
的 示例 是 我 见 过 最 棒 的 : 那个 示例 实现 了 John Conway 发 明 的 “生命 游 
戏 ”(https://en.wikipedia.org/wiki/Conway%27s Game of Life) ， 使 用 协 
TE EY BRIS TIE PAS © AAS HE“ GitHub 
仓库 中 Chttps://github.com/bslatkin/effectivepython) 。 我 重 构 了 那个 “ 生 
命 游戏 ”示例 一 一 把 Slatkin 书 中 的 函数 和 类 与 测试 代码 分 开 《 原 来 的 代 
人 码 : https://github.com/bslatkin/effectivepython/blob/master/example_code/itei 
我 还 编写 了 doctest 形式 的 测试 ， 因 此 不 用 运行 脚本 就 能 看 到 各 个 协 程 
和 类 的 输出 。 重 构 后 的 示例 发 布 在 GitHub Gist 网 站 上 
(https://gist.github.com/ramalho/da5590bc38c973408839) 。 


还 有 几 个 有 趣 的 示例 没 用 asyncio Æ, RHI yield from: Peter 
Otten 在 Python Tutor 邮件 列表 中 发 布 的 消息 , “Comparing two CSV files 
using Python” Chttps://mail.python.org/pipermail/tutor/2015- 
February/104200.html) ; Ian Ward 以 iPython Notebook 形式 发 布 
的 “Tterables, Iterators, and Generators” AUF 
(http://nbviewer.ipython.org/github/wardi/iterables-iterators- 
generators/blob/master/Iterables,%20Iterators,%20Generators.ipynb) ， 实 现 
HJE BY JJ A AAE FRR o 


Guido van Rossum 在 python-tulip Google Group 中 发 表 了 一 篇 内 容 很 长 的 
消息 ， 题 为 “The difference between yield and yield- 

from” Chttps://groups.google.com/forum/#!msg/python- 
tulip/bmphRrryuFk/aB45sEJUomYJ) ， 值 得 一 读 。2009 年 3 月 21 日， 
Nick Coghlan 在 Python-Dev 邮件 列表 中 发 布 了 市 有 大 量 注释 的 yield 


from 扩充 实现 Chttps://mail.python.org/pipermail/python-dev/2009- 
March/087382.html) 。 在 那 篇 消息 中 ， 他 写 道 : 


不 管 人 们 是 否 觉得 使 用 yield from 结构 的 代码 难以 理解 ， 也 不 管 
人 们 能 否 领 会 协作 式 多 线程 相关 的 概念 ，yield from 结构 底层 的 
精巧 处 理 能 实现 真正 的 符 套 生成 器 。 


Yury Selivanov 撰写 的 “PEP 492 一 Coroutines with async and await 

syntax” Chttps://www.python.org/dev/peps/pep-0492/) 提议 为 Python 增加 
两 个 关键 字 : async 和 await. async 与 其 他 现 有 的 关键 字 结 合 使 用 ， 
用 于 定义 新 的 语言 结构 。 例 如 ，async def 用 于 定义 协 程 ，async for 
用 于 使 用 异步 迭代 器 (实现 _ aiter 和 ”anext _ 方法 ， 这 是 协 程 
版 的 _iter 和 ”next DE) 迭代 可 迭代 的 异步 对 象 。 为 了 避免 
与 即将 引入 的 async 关键 字 冲 突 ，asyncio.async() 函数 将 在 Python 
3.4.4 中 重 命 名 为 asyncio.ensure_future()。await 关键 字 的 作用 与 
yield from 结构 类 似 ， 不 过 只 能 在 以 async def 定义 的 协 程 (禁止 使 
FA yield 和 yield from) 中 使 用 。PEP 492 使 用 新 句法 把 发 展 成 类 似 
协 程 对 象 的 生成 器 与 全 新 的 原生 协 程 对 象 明 确 地 区 分 开 了 。 得 益 

async 和 await 关键 字 ， 以 及 几 个 特殊 的 新 方法 ，Python 语言 将 对 原生 
的 协 程 对 象 提 供 更 好 的 支持 。 协 程 已 经 做 好 准备 ， 会 成 为 Python 未 来 特 
别 重要 的 特性 ， 因 此 Python 语言 应 该 更 好 地 集成 协 程 。 


使 用 离散 事件 仿真 系统 做 试验 是 熟悉 协作 式 多 任务 的 好 方法 。 维 基 百 科 
中 的 “Discrete event simulation” — X 
(https://en.wikipedia.org/wiki/Discrete event simulation〉 是 不 错 的 入 门 
资料 。18Ashish Gupta 写 的 短篇 教程 “Writing a Discrete Event Simulation: 
Ten Easy 
Lessons” Chttp://www.cs.northwestern.edu/~agupta/_projects/networking/Que 
说 明了 如 何 自己 动手 (不 使 用 特别 的 库 ) 编写 离散 事件 仿真 系统 。 那 篇 
教程 中 的 代码 使 用 Java 编写 ， 因 此 是 基于 类 的 ， 而 且 没 使 用 协 程 ， 不 
过 可 以 轻松 地 移植 到 Python。 除 了 代码 之 外 ， 那 篇 简短 的 教程 还 介绍 了 
离散 事件 仿真 的 术语 和 组 件 。 把 Gupta 教程 中 的 示例 转换 成 Python 类 ， 
然后 再 转换 成 利用 协 程 的 类 ， 是 个 很 好 的 练习 。 


8 如 今 ， 即 使 终身 教授 也 同意 ， 维 基 百 科 几 平 是 学 习 任 何 计算 机 科学 知识 的 入 门 首选 。 对 其 他 
知识 而 言 虽然 不 是 如 此 ， 但 是 在 计算 机 科学 这 方面 ， 维 基 百 科 特 别 棒 。 


如 果 想 使 用 现成 的 Python 协 程 库 ， 可 以 使 用 SimPy。 这 个 库 的 在 线 文档 
(https://simpy.readthedocs.org/en/latest/〉 中 说 道 : 


SimPy 是 使 用 标准 的 Python 开发 的 基于 进程 的 离散 事件 仿真 框架 ， 
事件 调度 程序 基于 Python 的 生成 器 实现 ， 因 此 还 可 用 于 异步 网 络 或 
实现 多 智能 体系 统 〔 即 可 模拟 ， 也 可 真正 通信 )。 


协 程 不 是 特别 新 的 Python 特性 ， 但 是 得 到 异步 编程 框架 支持 (Tornado 
RELF) 之 前 ， 只 在 较 军 的 应 用 领域 内 使 用 。Python 3.3 引入 的 
yield from 结构 和 Python 3.4 添加 的 asyncio 包 可 能 会 提升 协 程 ( 和 
Python 3.4 A) 的 使 用 量 。 但 写作 本 书 时 ，Python 3.4 发 布 还 不 到 一 
年 ， 因 此 观看 David Beazley 的 课程 ， 阅 读 涉 及 这 个 话题 的 经 典 实例 
时 ， 不 会 有 太 多 内 容 深 入 探讨 Python 协 程 编程 。 不 过 ， 这 只 是 暂时 的 。 


杂谈 
raise from lambda 


对 编程 语言 来 说 ， 关 键 字 的 作用 是 建立 控制 流程 和 表达 式 计算 的 基 
本 规则 。 


语言 的 关键 字 像 是 棋盘 游戏 中 的 棋子 。 对 国际 象棋 来 说 ， 关 键 字 是 
e, W, z a oA; WHIMORUL, Kee. 


国际 象棋 的 棋 手 实现 计划 时 ， 有 六 种 类 型 的 棋子 可 用 ; 而 围棋 的 棋 
手 看 起 来 只 有 一 种 类 型 的 棋子 可 用 。 可 是 ， 在 围棋 的 玩法 中 ， 相 邻 
的 棋子 能 构成 更 大 更 稳定 的 棋子 ， 形 状 各 异 ， 不 受 束缚 。 围 棋 棋子 
的 某 些 排列 是 不 可 摊 毁 的 。 围 棋 的 表现 力 比 国际 象棋 强 。 围 棋 的 开 
局 走 法 有 361 FH, KAVA 1e+170 个 合 规 的 位 置 ， 而 国际 象棋 的 开 
局 走 法 有 20 种 ， 有 1e+50 个 位 置 。 


如 打 为 国际 象棋 添加 一 个 新 棋子 ， 将 带 来 其 上 覆 性 的 改变 ; 为 编程 语 
言 添加 一 个 新 的 关键 字 也 是 如 此 。 因 此 ， 语 言 的 设计 者 谨慎 考虑 引 
入 新 关键 字 古 合理 的 。 


表 16-1: 不 同 编程 语言 中 的 关键 字数 量 


EP 


关 
键 | 语言 备注 


以 句法 极 简 而 著称 


fae, MER 


ANSI C. C99 有 37 个 关键 字 ，C1 A 44 个 


Python 2.7 有 31 个 关键 字 ，Python 1.5 有 28 个 


关键 字 可 以 作为 标识 符 使 用 〈 例 如 ，class 也 是 一 个 方法 的 名 称 》 


与 C 语言 一 样 ， 基 本 类 型 的 名 称 (char. float 等 ) 是 保留 


包含 Java 1.0 的 所 有 关键 字 ， 很 多 都 没 用 Chttp/mz.la/1JIr8fM) 


PHP 5.3 之 后 引入 了 七 个 关键 字 ， 如 goto, trait 和 yield 


据 cppreference.com 网 站 给 出 的 信息 
Chttp://en.cppreference.com/w/cpp/keyword) , CH11 在 现 有 的 75 个 
关键 字 的 基础 上 添加 了 10 个 


这 不 是 我 捏造 的 。 参 见 IBM ILE COBOL 手册 
Chttp://publib. boulder.ibm.com/iseries/v51r2/ic2924/books/x091317316.htm ) 


* 围棋 的 英文 是 Go， 因 此 作者 备注 这 里 说 的 是 Go 语言 。 译 者 注 


Python 3 添加 了 nonlocal RHF, HE None, True 和 False 提升 
为 关键 字 ， 废 弃 了 print 和 exec。 在 语言 的 发 展 过 程 中 ， 弃 用 关 
键 字 十 分 罕见 。 表 16-1 列 出 了 几 门 语言 ， 按 照 关 键 字 的 数量 排 
Fa 


Scheme 继承 了 Lisp 的 宏 ， 人 允许 任何 人 创建 特殊 的 形式 ， 为 语言 添 
加 新 的 控制 结构 和 计算 规则 。 用 户 定 义 的 这 种 标识 符 叫 作 “ 句 法 天 
键 字 ”。Scheme R5RS 标准 声称 ,，“ 这 门 语言 没有 保留 的 标识 

符 ”( 标 准 的 第 45 

页 ，http://www.schemers.org/Documents/Standards/R5RS/r5rs.pdf) ， 
但 是 MIT/GNU 

Scheme Chttp://www.gnu.org/software/mitscheme/documentation/mit- 
scheme-ref/Special-Form-Syntax.html#Special-Form-Syntax) 这 种 特殊 
的 实现 预定 义 了 34 个 句法 关键 字 ， 例 如 if. lambda 和 define- 
syntax《 用 于 创建 新 关键 字 的 关键 字 ) 。18 


Python RK Elba Atl, m Scheme 像 围棋 。 


现在 ， 回 到 Python 句法 。 我 党 得 Guido 对 关键 字 的 态度 过 于 保守 
了 。 关 键 字 的 数量 应 该 少 ， 添 加 新 关键 字 可 能 会 破坏 大 量 代 码 ， 但 
是 在 循环 中 使 用 else 揭示 了 一 个 递归 问题 : 在 更 适合 使 用 新 关键 
字 的 地 方 重用 现 有 的 关键 字 。 在 for. while 和 try 的 上 下 文中 ， 
应 该 使 用 then KES, TAIZ else. 


在 这 个 问题 上 ， 最 严重 的 一 点 是 重用 def。 现 在 ， 这 个 关键 字 用 于 
定义 函数 、 生 成 器 和 协 程 ， 而 这 些 对 象 之 间 的 差异 很 大 ， 不 应 该 使 
用 相同 的 句法 声明 。 了 2 


引入 yield from 句法 尤其 让 人 失望 。 再 次 声明 ， 我 觉得 真 的 应 该 
为 Python 使 用 者 提供 新 的 关键 字 。 更 粮 的 是 ， 这 开启 了 新 的 趋势 : 
把 现 有 的 关键 字 串 起 来 ， 创 建新 的 句法 ， 而 不 添加 描述 性 的 合理 关 
EF RBA ABN Bish ER raise from lambda 是 什么 意 

E 


JÒ oO 


突 友 新闻 


完成 本 书 的 技术 审 校 之 后 ，Yury Selivanov 提交 的 “PEP 492 一 
Coroutines with async and await 


syntax” Chttps://www.python.or g/dev/peps/pep- 0492/) 好 像 要 被 接受 
了 ， 将 在 Python 3.5 中 实现 。 "Guido van Rossum 和 Victor Stinner 
都 支持 这 个 PEP， 前 者 是 Python 语言 的 创造 者 ， 后 者 是 asyncio 
库 的 主要 维护 者 ， 而 asyncio 库 将 是 新 句法 的 主要 使 用 案例 。 回 
应 Selivanov 在 Python-ideas 邮件 列表 中 发 布 的 消息 
Chttps://mail.python.org/pipermail/python-ideas/2015- 
April/033007.html) I}, Guido 甚至 暗示 ， 为 了 实现 这 个 PEP2!, ay 
能 会 延迟 发 布 Python 
3.5 (https://mail.python.org/pipermail/pythonideas/2015- 
April/033050.html) 。 


当然 ， 这 会 平 居 前 一 市 所 述 的 大 部 分 抱怨 。 


The Value Of Syntax?” —X 《http//lambda-the-ultimate.org/node/4295〉 对 可 扩展 的 句法 和 编程 
语言 的 可 用 性 做 了 有 趣 的 探讨 。Lambda the Ultimate 讨论 组 (http://lambda-the-ultimate.org/〉 是 
编程 语言 极 客 的 度假 胜地 。 


20JavaScript、Python 和 其 他 语言 都 有 这 样 的 问题 。 推 荐 阅读 Bob Nystrom 写 的 “What Color Is 
Your Function?” — X Chttp://journal. stuffwithstuff.com/2015/02/01/what-color-is-your-function/) 。 


Ip ython 3.5 已 经 接受 了 PEP 492， 增 加 了 两 个 关键 字 : async 和 await. 编者 注 


第 17 章 使 用 期 物 处 理 并 发 


择 击 线程 的 往往 是 系统 程序 员 ， 他 们 考虑 的 使 用 场景 对 一 般 的 应 用 

程序 员 来 说 ， 也 许 一 生 都 不 会 遇 到 .…… 应 用 程序 员 遇 到 的 使 用 场 

o 的 情况 下 只 需 知 道 如 何 派 生 一 堆 独 立 的 线程 ， 然 后 用 队列 
结果 。 


一 Michele Simionato 


深度 思考 Python 的 人 


1 摘自 Michele Simionato 发 表 的 文章 “Threads, processes and concurrency in Python: some 
thoughts” (http://www.artima.com/weblogs/viewpost.jsp?thread=299551) ， 副 标题 为 "Removing the 
hype around the multicore (non) revolution and some (hopefully) sensible comment about threads and 
other forms of concurrency’ o 


本 章 主要 讨论 Python 3.2 引入 的 concurrent.futures 模块 ， 从 PyPI 
中 安装 futures 包 Chttps://pypi.python.org/pypi/futures/) 之 后 ， 也 能 在 
Python 2.5 及 以 上 版 本 中 使 用 这 个 库 。 这 个 库 封装 了 前 面 的 引文 中 
Michele Simionato 所 述 的 模式 ， 特 别 易于 使 用 。 


这 一 章 还 会 介绍 “期 物 ”(future)“ 的 概念 。 期 物 指 一 种 对 象 ， 表 示 异 步 
执行 的 操作 。 这 个 概念 的 作用 很 大 ， 是 concurrent.futures 模块 和 
asyncio & (第 18 章 讨论 ) 的 基础 。 


“期 物 "是 我 自 创 的 词 ， 其 中 的 “ 物 ” 是 指 “ 物 件 ”(object， 也 就 是 对 象 ) 。 起 初 读者 可 能 不 明 其 
意 ， 可 与 期 货 、 期 权 和 期 房 对 比 理解 。 译 者 注 


下 面 举 个 示例 ， 作 为 引子 。 


17.1 示例 : 网络 下 载 的 三 种 风格 


为 了 高 效 处 理 网 络 TO， 需 要 使 用 并 发 ， 因 为 网 络 有 很 高 的 延迟 ， 所 以 
CPU 周期 去 等 待 ， 最 好 在 收 到 网 络 啊 应 之 前 做 些 其 他 的 


为 了 通过 代码 说 明 这 一 点 ， 我 写 了 三 个 示例 程序 ， 从 网 上 下 载 20 个 国 
家 的 国旗 图 像 。 第 一 个 示例 程序 flags.py 是 依 序 下 载 的 ， 下 载 完 一 个 图 
像 ， 并 将 其 保存 在 硬盘 中 之 后 ， 才 请 求 下 一 个 图 像 。 另 外 两 个 脚本 是 并 
发 下 载 的 : 几乎 同时 请 求 所 有 图 像 ， 每 下 载 完 一 个 文件 就 保存 一 个 文 
+, flags threadpool.py 脚本 使 用 concurrent .futures 模块 ， 而 
flags_asyncio.py 脚本 使 用 asyncio 包 。 


示例 17-1 是 运行 这 三 个 脚本 得 到 的 结果 ， 每 个 脚本 都 运行 三 次 。 我 还 
在 YouTube 上 发 布 了 一 个 73 秒 的 视频 Chttps://www.youtube.com/watch? 
v=A9e9CylUKME) ， 让 你 观看 这 些 脚 本 的 运行 情况 ， 你 会 看 到 一 个 OS 
X Finder 窗口 ， 显 示 运 行 过 程 中 保存 的 国旗 图 像 文件 。 这 些 脚本 从 
flupy.org 下 载 图 像 ， 而 这 个 网 站 架设 在 CDN 之 后 ， 因 此 第 一 次 运行 时 
可 能 要 等 很 久 才 能 看 到 结果 。 示 例 17-1 中 显示 的 结果 是 运行 几 次 之 后 
收集 的 ， 因 此 CON FEAA TAT. 


示例 17-1 运行 flags.py、flags threadpool.py 和 flags asyncio.py Jill 
本 得 到 的 结果 


$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN @ 
26 flags downloaded in 7.26s @ 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN 
20 flags downloaded in 7.2@s 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN 
20 flags downloaded in 7.09s 

$ python3 flags _threadpool.py 

DE BD CN JP ID EG NG BR RU CD IR MX US PH FR PK VN IN ET TR 
20 flags downloaded in 1.37s © 

$ python3 flags _threadpool.py 

EG BR FR IN BD JP DE RU PK PH CD MX ID US NG TR CN VN ET IR 


26 flags downloaded in 1.6@s 

$ python3 flags _threadpool.py 

BD DE EG CN ID RU IN VN ET MX FR CD NG US JP TR PK BR IR PH 
26 flags downloaded in 1.22s 

$ python3 flags asyncio.py @ 

BD BR IN ID TR DE CN US IR PK PH FR RU NG VN ET MX EG JP CD 
20 flags downloaded in 1.36s 

$ python3 flags _asyncio.py 

RU CN BR IN FR BD TR EG VN IR PH CD ET ID NG DE JP PK MX US 
26 flags downloaded in 1.27s 

$ python3 flags _asyncio.py 

RU IN ID DE BR VN PK MX US IR ET EG NG BD FR CN JP PH CD TR © 
20 flags downloaded in 1.42s 


@ 每 次 运行 脚本 后 ， 首 先 显示 下 载 过 程 中 下 载 完毕 的 国家 代码 ， 最 后 


显示 一 个 消 轧 ， 说 明 耗 时 。 

© flags.py 脚本 下 载 20 个 图 像 平均 用 时 7.18 秒 。 
© flags_threadpool.py 脚本 平均 用 时 1.40 秒 。 

© flags_asyncio.py 脚本 平均 用 时 1.35 秒 。 


> 注意 国家 代码 的 顺序 : 对 并 发 下 载 的 脚本 来 说 ， 每 次 下 载 的 顺序 都 
TE 


两 个 并 发 下 载 的 脚本 之 间 性 能 差异 不 大 ， 不 过 都 比 依 序 下 载 的 脚本 快 5 
倍 多 。 这 只 是 一 个 特别 小 的 任务 ， 如 果 把 下 载 的 文件 数量 增加 到 几 百 
个 ， 并 发 下 载 的 脚本 能 比 依 序 下 载 的 脚本 快 20 倍 或 更 多 。 


Bes 在 公 网 中 测试 HTTP FF ACA im AY BE AS 2) BB TE AIR 
(Denial-of-Service, DoS) 攻击 ， 或 者 有 这 么 做 的 嫌疑 。 我 们 可 以 
像 示例 17-1 那样 做 ， 因 为 那 三 个 脚本 被 硬 编码 ， 限 制 只 发 起 20 个 
请 求 。 如 果 想 大 规模 测试 HTTP 服务 器 ， 应 该 自己 架设 测试 服务 
器 。 在 本 书 的 GitHub 仓库 中 
Chttps://github.com/fluentpython/example-code) , 17- 
futures/countries/README. rst 文件 
Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README. rst) 说 明了 如 何在 本 地 架设 Nginx 服务 


Air o 


下 面 我 们 来 分 析 示 例 17-1 测试 的 两 个 脚本 一 一 fags.py 和 

flags_ threadpool.py， 看 看 它们 的 实现 方式 。 第 三 个 脚本 flags asyncio.py 
留 到 第 18 章 再 分 析 。 将 这 三 个 脚本 一 起 演示 是 为 了 表明 一 个 观点 : 在 

VO 密集 型 应 用 中 ， 如 果 代 码 写 得 正确 ， 那 么 不 管 使 用 哪 种 并 发 策略 
(使 用 线程 或 asyncio 包 ) ， 吞 吐 量 都 比 依 序 执行 的 代码 高 很 多 。 


下 面 分 析 代码 。 
17.1.1 依 序 下 载 的 脚本 


示例 17-2 不 太 有 吸引 力 ， 不 过 实现 并 发 下 载 的 脚本 时 会 重用 其 中 的 大 
部 分 代码 和 设置 ， 因 此 值得 分 析 一 下 。 


` 为 了 清楚 起 见 ， 示 例 17-2 KAAR H. FA eh a 
引 集 中 说 明代 码 的 基本 结构 ， 以 便 和 并 发 下 载 的 脚本 进行 
对 上 


示例 17-2 flags.py: 依 序 下载 的 脚本 ; 另外 两 个 脚本 会 重用 其 中 
几 个 函数 


import os 
import time 
import sys 


import requests @ 


POP26 CC = (‘CN IN US ID BR PK NG BD RU JP ' 
'MX PH VN ET EG DE IR TR CD FR').split() @ 


BASE_URL = 'http://flupy.org/data/flags' © 
DEST_DIR = ‘downloads/' @ 


def save flag(img, filename): © 
path = os.path.join(DEST_DIR, filename) 


with open(path, ‘wb') as fp: 
fp.write(img) 


def get_flag(cc): © 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = requests.get(url) 
return resp.content 


de 


-h 


show(text): @ 
print(text, end=' ') 
sys.stdout.flush() 


def download_many(cc_list): © 
for cc in sorted(cc_list): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 


return len(cc_list) 


def main(download many): 四 
to = time.time() 
count = download_many(POP2@_ CC) 
elapsed = time.time() - te 
msg = '\n{} flags downloaded in {:.2f}s' 
print(msg.format(count, elapsed) ) 


if _name == ' main_': 
main(download_many) @ 


@ SA requests 库 。 这 个 库 不 在 标准 库 中 ， 因 此 依照 惯例 ， 在 导入 标 
准 库 中 的 模块 (os、time 和 sys) 之 后 导入 ， 而 且 使 用 一 个 空 行 分 隔 
Ae 


3 可 以 使 用 pip install requests 命令 安装 requests Æ. ”编者 注 


F R 20 个 国家 的 ISO 3166 国家 代码 ， 按 照 人 口 数 量 降序 
列 。 


O 获取 国旗 图 像 的 网 站 。” 


4 国旗 图 像 出 自 CIA 世界 概况 〈httpyl.usa.gow1JIsmHJ) ， 由 美国 政府 发 布 ， 属 公共 领域 。 我 
把 这 些 图 像 复制 到 了 自己 的 网 站 ， 以 此 避免 向 CIA.gov 发 起 DoS 攻击 的 嫌疑 。 


O 保存 图 像 的 本 地 目录 。 

加 把 img ( 字 节 序列 ) 保存 到 DEST_DIR 目录 中 ， 命 名 为 filename. 
O 指定 国家 代码 ， 构 建 URL， 然 后 下 载 图 像 ， 返 回响 应 中 的 二 进 制 内 
BS 


@ 显示 一 个 字符 串 ， 然 后 刷新 sys.stdout， 这 样 能 在 一 行 消息 中 看 到 
进度 。 在 Python 中 得 这 么 做 ， 因 为 正常 情况 下 ， 遇 到 换行 才 会 刷新 
stdout 绥 冲 。 


@ download_many 是 与 并 发 实现 比较 的 关键 函数 。 


© 按 字 母 表 顺 序 迭 代 国家 代码 列表 ， 明 确 表 明 输 出 的 顺序 与 输入 一 
致 。 返 回 下 载 的 国旗 数量 。 


@ main 函数 记录 并 报告 运行 download_many 函数 之 后 的 耗 时 。 
D main 函数 必须 调用 执行 下 载 的 函数 ， 我 们 把 download_many 函数 


当 作 参数 传 给 main 函数 ， 这 样 main 函数 可 以 用 作 库 函数 ， 在 后 面 的 
示例 中 接收 download_many 函数 的 其 他 实现 。 


~I Kenneth Reitz 开发 的 requests 库 可 通过 PyPI 安装 
(https://pypi.python.org/pypi/requests) ， 比 Python 3 标准 库 中 的 
urllib.request 模块 更 易于 使 用 。 其 实 ，requests 库 提供 的 
API 更 符合 Python 的 习惯 用 法 ， 而 且 与 Python 2.6 及 以 上 版 本 兼 
容 。 因 为 Python 2 中 删除 了 urllib2, Python3 又 使 用 了 其 他 名 
称 ， 所 以 不 管 使 用 哪 一 版 Python， 使 用 requests 库 都 更 方便 。 


flags.py 脚本 中 没有 什么 新 知识 ， 只 是 与 其 他 脚本 对 比 的 基准 ， 而 且 我 
把 它 作 为 一 个 库 使 用 ， 避 人 免 实 现 其 他 脚本 时 重复 编写 代码 。 下 面 分 析 使 
用 concurrent.futures 模块 重新 实现 的 版 本 。 


17.1.2 ”使 用 concurrent .futures 模 块 下 载 


concurrent. futures 模块 的 主要 特色 是 ThreadPoolExecutor 和 
ProcessPoolExecutor 类 ， 这 两 个 类 实现 的 接口 能 分 别 在 不 同 的 线程 
或 进程 中 执行 可 调用 的 对 象 。 这 两 个 类 在 内 部 维护 着 一 个 工作 线程 或 进 
程 池 ， 以 及 要 执行 的 任务 队列 。 不 过 ， 这 个 接口 抽象 的 层级 很 高 ， 像 下 
载 国旗 这 种 简单 的 案例 ， 无 需 关 心 任何 实现 细节 。 


示例 17-3 展示 如 何 使 用 ThreadPoolExecutor.map 方法 ， 以 最 简单 的 
方式 实现 并 发 下 载 。 


示例 17-3 flags threadpool.py: 使 用 
futures .ThreadPoolExecutor 类 实现 多 线程 下 载 的 脚本 


from concurrent import futures 


from flags import save flag, get flag, show, main © 


MAX_WORKERS = 20 @ 


def download_one(cc): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 
return cc 


download_many(cc_list): 

workers = min(MAX_WORKERS, len(cc_list)) @ 

with futures. ThreadPoolExecutor(workers) as executor: © 
res = executor.map(download_one, sorted(cc_list)) © 


return len(list(res)) @ 


if _name == ' main_': 
main(download_many) © 


O EH flags 模块 〈 见 示例 17-2) 中 的 几 个 函数 。 


© 设 定 ThreadPoolExecutor 类 最 多 使 用 几 个 线程 。 
O 下 载 一 个 图 像 的 函数 ;这 是 在 各 个 线程 中 执行 的 函数 。 


O 设 定 工作 的 线程 数量 : 使 用 允许 的 最 大 值 (MAX_WORKERS) 与 要 处 
理 的 数量 之 间 较 小 的 那个 值 ， 以 免 创建 多 余 的 线程 。 


O 使 用 工作 的 线程 数 实例 化 ThreadPoolExecutor 

38; executor. exit _ 方法 会 调用 

executor. shutdown(wait=True) 方法 ， 它 会 在 所 有 线程 都 执行 完毕 
前 阻塞 线程 。 

© map 方法 的 作用 与 内 置 的 map 函数 类 似 ， 不 过 download_one 函数 
会 在 多 个 线程 中 并 发 调用 ; map 方法 返回 一 个 生成 器 ， 因 此 可 以 迭代 ， 

获取 各 个 函数 返回 的 值 。 


O 返回 获取 的 结果 数量 ， 如 果 有 线程 抛 出 异常 ， 异 常会 在 这 里 抛 出 ， 
这 与 隐 式 调 用 next() 函数 从 欠 代 器 中 获取 相应 的 返回 值 一 样 。 


© 调用 flags 模块 中 的 main 函数 ， 传 入 download_many 函数 的 增强 
版 。 


注意 ， 示 例 17-3 中 的 download_one 函数 其 实 是 示例 17-2 中 
download_many 函数 的 for 循环 体 。 编 写 并 发 代码 时 经 稼 这样 重 构 : 
把 依 序 执行 的 For 循环 体 改 成 函数 ， 以 便 并 发 调用 。 


我 们 用 的 库 叫 concurrency .futures， 可 是 在 示例 17-3 中 没有 见 到 期 
物 ， 因 此 你 可 能 想 知 道 期 物 在 哪里 。 下 一 节 会 解答 这 个 问题 。 


17.1.3 ”期 物 在 哪里 


期 物 是 concurrent. futures 模块 和 asyncio 包 的 重要 组 件 ， 可 是 ， 

作为 这 两 个 库 的 用 户 ， 我 们 有 时 却 见 不 到 期 物 。 示 例 17-3 在 背后 用 到 

了 期 物 ， 但 是 我 编写 的 代码 没有 直接 使 用 。 这 一 节 概 述 期 物 ， 还 会 举 一 
个 例子 ， 展 示 用 法 。 


从 Python 3.4 起 ， 标 准 库 中 有 两 个 名 为 Future 的 


28; concurrent.futures.Future 和 asyncio.Future。 这 两 个 类 的 
作用 相同 : 两 个 Future 类 的 实例 都 表示 可 能 已 经 完成 或 者 尚未 完成 的 
延迟 计算 。 这 与 Twisted 引擎 中 的 Deferred 类 、Tornado 框架 中 的 
Future 类 ， 以 及 多 个 JavaScript 库 中 的 Promise 对 象 类 似 。 


期 物 封 疼 竺 完成 的 操作 ， 可 以 放 入 队列 ， 完 成 的 状态 可 以 查询 ， 得 到 纺 
FR CBM Fe) JA AT SRR ZR CBR) 。 


我 们 要 记 住 一 件 事 : 通常 情况 下 自己 不 应 该 创建 期 物 ， 而 只 能 由 并 发 杠 
架 (concurrent. futures 或 asyncio) 实例 化 。 原 因 很 简单 : 期 物 
表示 终 将 发 生 的 事情 ， 而 确定 某 件 事 会 发 生 的 唯一 方式 是 执行 的 时 间 已 
经 排 定 。 因 此 ， 只 有 排 定 把 某 件 事 交 给 
concurrent.futures.Executor 子 类 处 理 时 ， 才 会 创建 
concurrent.futures.Future 实例 。 例 如 ，Executor.submit() 方 
法 的 参数 是 一 个 可 调用 的 对 象 ， 调 用 这 个 方法 后 会 为 传 入 的 可 调用 对 象 
排 期 ， 并 返回 一 个 期 物 。 


客户 端 代码 不 应 该 改变 期 物 的 状态 ， 并 发 框 以 在 期 物 表示 的 延迟 计算 结 
束 后 会 改变 期 物 的 状态 ， 而 我 们 无 法 控制 计算 何 时 结束 。 


这 两 种 期 物 都 有 .done() 方法 ， 这 个 方法 不 阻塞 ， 返 回 值 是 布尔 值 ， 
指明 期 物 链接 的 可 调用 对 象 是 否 已 经 执行 。 客 户 端 代 人 码 通常 不 会 询问 期 
物 是 否 运行 结束 ， 而 是 会 等 待 通知。 因此 ， 两 个 Future 类 都 有 
.add_done_callback() 方法 : 这 个 方法 只 有 一 个 参数 ， 类 型 是 可 调 
用 的 对 象 ， 期 物 运行 结束 后 会 调用 指定 的 可 调用 对 象 。 


此 外 ， 还 有 .result() 方法 。 在 期 物 运行 结束 后 调用 的 话 ， 这 个 方法 
在 两 个 Future 类 中 的 作用 相同 : 返回 可 调用 对 象 的 结果 ， 或 者 重新 抛 
出 执行 可 调用 的 对 象 时 抛 出 的 异常 。 可 是 ， 如 果 期 物 没 有 运行 结 

R, result 方法 在 两 个 Future 类 中 的 行为 相差 很 大 。 对 
concurrency.futures.Future 实例 来 说 ， 调 用 f.result() 方法 会 
阻塞 调用 方 所 在 的 线程 ， 直 到 有 结果 可 返回 。 此 时 ，result 方法 可 以 
接收 可 选 的 timeout 参数 ， 如 条 在 指定 的 时 间 内 期 物 没 有 运行 完毕 ， 
会 抛 出 TimeoutError 异常 。 读 到 18.1.1 节 你 会 发 

现 ，asyncio.Future.result 方法 不 支持 设 定 超时 时 间 ， 在 那个 库 中 
获取 期 物 的 结果 最 好 使 用 yield from 结构 。 不 过 ， 对 
concurrency. futures . Future 实例 不 能 这 么 做 。 


这 两 个 库 中 有 几 个 函数 会 返回 期 物 ， 其 他 函数 则 使 用 期 物 ， 以 用 户 易 于 
理解 的 方式 实现 自身 。 使 用 17-3 中 的 Executor.map 方法 属于 后 者 : 
返回 值 是 一 个 友 代 器 ， 人 迭 代 器 的 next _ 方法 调用 各 个 期 物 的 
result 方法 ， 因 此 我 们 得 到 的 是 各 个 期 物 的 结果 ， 而 非 期 物 本 身 。 


为 了 从 实用 的 角度 理解 期 物 ， 我 们 可 以 使 用 

concurrent .futures.as_completed 函数 
(https://docs.python.org/3/library/concurrent. futures.html#concurrent. futures.a 

重 写 示 例 17-3。 这 个 函数 的 参数 是 一 个 期 物 列 表 ， 返 回 值 是 一 个 欠 代 

器 ， 在 期 物 运行 结 束 后 产 出 期 物 。 


为 了 使 用 futures.as_completed 函数 ， 只 需 修 改 download_many % 
数 ， 把 较 抽象 的 executor .map 调用 换 成 两 个 for 循环 : 一 个 用 于 创 
建 并 排 定 期 物 ， 另 一 个 用 于 获取 期 物 的 结果 。 同 时 ， 我 们 会 添加 几 个 
print 调用 ， 显 示 运 行 结束 前 后 的 期 物 。 修 改 后 的 download_many ek 
数 如 示例 17-4， 代 码 行 数 由 5 变 成 17， 不 过 现在 我 们 能 一 筑 神 秘 的 期 
物 了 。 其 他 函数 不 变 ， 与 示例 17-3 中 的 一 样 。 


示例 17-4 flags threadpool ac.py: 把 download_many 函数 中 的 
executor.map 方法 换 成 executor .submit 方法 和 
futures.as_completed 函数 


def download_many(cc_list): 
cc_list = cc_list[:5] © 
with futures. ThreadPoolExecutor(max_workers=3) as executor: @ 
to_do = [] 
for cc in sorted(cc_list): © 
future = executor.submit(download_ one, cc) @ 
to_do.append(future) © 
msg = ‘Scheduled for {}: {}' 
print(msg.format(cc, future)) © 


results = [] 

for future in futures.as_completed(to_do): @ 
res = future.result() 
msg = '{} result: {!r}' 
print(msg.format(future, res)) © 
results.append(res) 


return len(results) 


@ 这 次 演示 只 使 用 人 口 最 多 的 5 个 国家 。 
© 把 max_workers 硬 编 码 为 3， 以 便 在 输出 中 观察 待 完 成 的 期 物 。 
O 按照 字母 表 顺 序 迭 代 国 家 代码 ， 明 确 表 明 输 出 的 顺序 与 输入 一 致 。 


@ executor .submit 方法 排 定 可 调用 对 象 的 执行 时 间 ， 然 后 返回 一 个 
期 物 ， 表 示 这 个 待 执行 的 操作 。 


O 存储 各 个 期 物 ， 后 面 传 给 as_completed 函数 。 

O 显示 一 个 消息 ， 包 含 国 家 代码 和 对 应 的 期 物 。 

@ as_completed 函数 在 期 物 运行 结束 后 产 出 期 物 。 

O 获取 该 期 物 的 结果 。 

O 显示 期 物 及 其 结果 。 

注意 ， 在 这 个 示例 中 调用 future.result() 方法 绝 不 会 阻塞 ， 因 为 


future 由 as_completed 函数 产 出 。 运 行 示例 17-4 得 到 的 输出 如 示例 
17-5 所 示 。 


示例 17-5 flags threadpool_ac.py 脚本 的 输出 


$ _ python3 flags_threadpool ac.py 

Scheduled for BR: <Future at 6x166791518 state=running> © 

Scheduled for CN: <Future at 0x100791710 state=running> 

Scheduled for ID: <Future at 0x100791a90 state=running> 

Scheduled for IN: <Future at @x1018@708@ state=pending> @ 

Scheduled for US: <Future at @x101807128 state=pending> 

CN <Future at @x100791710 state=finished returned str> result: 'CN' © 


BR ID <Future at @x10@791518 state=finished returned str> result: 'BR' @ 
<Future at @x100791a90 state=finished returned str> result: 'ID' 

IN <Future at 0x101807080 state=finished returned str> result: 'IN' 

US <Future at 0x101807128 state=finished returned str> result: "US 


5 flags downloaded in 0.70s 


O 排 定 的 期 物 按 字母 表 排 序 ， 期 物 的 repr() 方法 会 显示 期 物 的 状态 : 


前 三 个 期 物 的 状态 是 running， 因 为 有 三 个 工作 的 线程 。 
O 后 两 个 期 物 的 状态 是 pending， 等 待 有 线程 可 用 。 


O 这 一 行 里 的 第 一 个 CN 是 运行 在 一 个 工作 线程 中 的 download_one pki 
数 输出 的 ， 随 后 的 内 容 是 download_many 函数 输出 的 。 


O 这 里 有 两 个 线程 输出 国家 代码 ， 然 后 主线 程 中 的 download_many K 
数 输出 第 一 个 线程 的 结果 。 


` 多 次 运行 flags threadpool ac.py 脚本 ， 看 到 的 结果 有 所 不 
同 。 如 果 把 max_workers 参数 的 值 增 大 到 5， 结 果 的 顺序 变化 更 
多 。 把 max_workers 参数 的 值 设 为 1， 代码 依 序 运行 ， 结 果 的 顺 
序 始终 与 调用 submit 方法 的 顺序 一 致 。 


我 们 分 析 了 两 个 版 本 的 使 用 concurrent .futures 库 实 现 的 下 载 脚 

AS: 使 用 ThreadPoolExecutor.map 方法 的 示例 17-3 和 使 用 
futures.as_completed 函数 的 示例 17-4。 如 果 你 对 flags_asyncio.py 
脚本 的 代码 好 奇 ， 可 以 看 一 眼 第 18 章 中 的 示例 18-5。 

严格 来 说 ， 我 们 目前 测试 的 并 发 脚本 都 不 能 并 行 下 载 。 使 用 
concurrent. futures 库 实现 的 那 两 个 示例 受 GIL (Global Interpreter 
Lock， 全 局 解释 器 锁 ) 的 限制 ， 而 flags asyncio.py 脚本 在 单个 线程 中 运 
行 。 


读 到 这 里 ， 你 可 能 会 对 前 面 做 的 非 正规 基准 测试 有 下 述 疑 问 。 


o 既然 Python 线程 受 GIL 的 限制 ， 任 何 时 候 都 只 允许 运行 一 个 线程 ， 
那么 flags_threadpool.py 脚本 的 下 载 速度 怎么 会 比 flags.py 脚本 快 5 
倍 ? 


。 flags asyncio.py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎 
么 会 比 后 者 快 5 倍 ? 


第 二 个 问题 在 18.3 节 解 答 。 


GIL 几乎 对 VO 密集 型 处 理 无 害 ， 原 因 参 见 下 一 节 。 


17.2 (ASE 42 V/OFIGIL 


CPython FREER AEREE, ACA ea eR ASL CGIL) ， 
一 次 只 允许 使 用 一 个 线程 执行 Python 字 节 人 码 。 因 此 ， 一 个 Python 进程 
通常 不 能 同时 使 用 多 个 CPU 核心 。” 


5 这 是 CPython 解释 器 的 局 限 ， 与 Python 语言 本 身 无 关 。Jython 和 IronPython 没有 这 种 限制 。 
不 过 ， 目 前 最 快 的 Python 解释 器 PyPy 也 有 GIL. 


编写 Python 代码 时 无 法 控制 GIL; 不 过 ， 执 行 耗 时 的 任务 时 ， 可 以 使 用 
一 个 内 置 的 函数 或 一 个 使 用 C 语言 编写 的 扩展 释放 GIL。 其 实 ， 有 个 使 
用 C 语言 编写 的 Python 库 能 管理 GL， 自行 启动 操作 系统 线程 ， 利 用 全 
部 可 用 的 CPU 核心 。 这 样 做 会 极 大 地 增加 库 代 码 的 复杂 度 ， 因 此 大 多 
数 库 的 作者 都 不 这 么 做 。 


然而 ， 标 准 库 中 所 有 执行 阻塞 型 IO 操作 的 函数 ， 在 等 竺 操作 系统 返回 
结果 时 都 会 释放 GIL。 这 意味 着 在 Python 语言 这 个 层次 上 可 以 使 用 多 线 
Fe, M VO 密集 型 Python 程序 能 从 中 受益 : 一 个 Python 线程 等 待 网 络 啊 
WMT, PEH VO 函数 会 释放 GIL， 再 运行 一 个 线程 。 


因此 David Beazley 才 说 : “Python AES ICE. ”® 


6 出 自 “Generators: The Final Frontier” (http//www.dabeaz.com/finalgenerator/) , #5 106 张 幻灯 
片 。 


和 Python 标准 库 中 的 所 有 阻塞 型 IO 函数 都 会 释放 GIL， 人 允许 其 
他 线程 运行 。time.sleep() 函数 也 会 释放 GILL。 因 此 ， 尽 管 有 
GIL，Python 线程 还 是 能 在 IO 密集 型 应 用 中 发 挥 作用 。 


下 面 简单 说 明 如 何在 CPU 密集 型 作业 中 使 用 concurrent. futures 模 
块 轻松 绕 开 GIL. 


17.3 ”使 用 concurrent.futures 模 块 启 动 

进程 

concurrent.futures 模块 的 文档 
(https://docs.python.org/3/library/concurrent.futures.html〉 副 标题 

是 “Launching parallel tasks”( 执 行 并 行 任务 ) 。 这 个 模块 实现 的 是 真正 

的 并 行 计 算 ， 因 为 它 使 用 ProcessPoolExecutor 类 把 工作 分 配给 多 个 


Python 进程 处 理 。 因 此 ， 如 果 需 要 做 CPU 密集 型 处 理 ， 使 用 这 个 模块 
能 绕 开 GIL， 利 用 所 有 可 用 的 CPU 核心 。 


ProcessPoolExecutor 和 ThreadPoolExecutor 类 都 实现 了 通用 的 
Executor 接口 ， 因 此 使 用 concurrent.futures 模块 能 特别 轻松 地 把 
基于 线程 的 方案 转 成 基于 进程 的 方案 。 


下 载 国旗 的 示例 或 其 他 IO 密集 型 作业 使 用 ProcessPoolExecutor 类 
得 不 到 任何 好 处 。 这 一 点 易于 验证 ， 只 需 把 示例 17-3 中 下 面 这 几 行 : 


def download_many(cc_list): 
workers = min(MAX_WORKERS, len(cc_list)) 


with futures. ThreadPoolExecutor(workers) as executor: 


改 成 : 


def download_many(cc_list): 
with futures.ProcessPoolExecutor() as executor: 


对 简单 的 用 途 来 说 ， 这 两 个 实现 Executor 接口 的 类 唯一 值得 注意 的 区 
别 是 ，ThreadPoolExecutor. init ”方法 需要 max_workers & 
数 ， 指 定 线程 池 中 线程 的 数量 。 在 ProcessPoolExecutor 类 中 ， 那 个 
参数 是 可 选 的 ， 而 且 大 多 数 情况 下 不 使 用 一 一 默认 值 是 
os.cpu_count() 函数 返回 的 CPU 数量 。 这 样 处 理 说 得 通 ， 因 为 对 
CPU 密集 型 的 处 理 来 说 ， 不 可 能 要 求 使 用 超过 CPU 数量 的 职 程 。 而 对 
VO 密集 型 处 理 来 说 ， 可 以 在 一 个 ThreadPoolExecutor 实例 中 使 用 10 


个 、100 个 或 1000 个 线程 ， 最 佳 线程 数 取 决 于 做 的 是 什么 事 ， 以 及 可 
用 内 存 有 多 少 ， 因 此 要 仔细 测试 才能 找到 最 佳 的 线程 数 。 

经 过 几 次 测试 ， 我 发 现 使 用 ProcessPoolExecutor 实例 下 载 20 mE 
旗 的 时 间 增 加 到 了 1.8 秒 ， 而 原来 使 用 ThreadPoolExecutor 的 版 本 是 


1.4 秒 。 主 要 原因 可 能 是 ， 我 的 电脑 用 的 是 四 核 CPU， 因 此 限制 只 能 
4 个 并 发 下 载 ， 而 使 用 线程 池 的 版 本 有 20 个 工作 的 线程 。 


ProcessPoolExecutor 的 价值 体现 在 CPU 密集 型 作业 上 。 我 用 两 个 
CPU 密集 型 脚本 做 了 一 些 性 能 测试 。 


arcfour_futures.py 


AAS CRAG AES Dla A-7) 纯粹 使 用 Python 实现 RC4 算 
法 。 我 加 密 并 解密 了 12 个 字 节 数组 ， 大 小 从 149KB 到 384KB 不 等 。 


sha_futures.py 


这 个 脚本 (代码 清单 参见 示例 A-9) 使 用 标准 库 中 的 hashlib 模块 
(使 用 OpenSSL 库 实现 ) 实现 SHA-256 算法 。 我 计算 了 12 个 1MB 字 
节 数 组 的 SHA-256 散 列 值 。 


这 两 个 脚本 除了 显示 汇总 结果 之 外 ， 没 有 使 用 VO。 构建 和 处 理 数据 的 
过 程 都 在 内 存 中 完成 ， 因 此 IO 对 执行 时 间 没 有 影响 。 


我 运行 了 64 次 RC4 示例 ，48 次 SHA 示例 ， 平 均 时 间 如 表 17-1 所 示 。 
统计 的 时 间 中 包含 派生 工作 进程 的 时 间 。 


表 17-1: 在 配 有 Intel Core i7 2.7 GHz 四 核 CPU 的 设备 中 ， 使 用 Python 
3.4 运 行 RC4 和 SHA 示例 ， 分 别 使 用 1~4 个 职 程 得 到 的 时 间 和 提速 倍数 


运行 SHA 示例 的 | SHA 示例 的 提速 
时 间 倍数 


可 以 看 出 ， 对 加 密 算法 来 说 ， 使 用 ProcessPoolExecutor 类 派生 4 个 
工作 的 进程 后 (如 果 有 4 个 CPU 核心 的 话 ) ， 性 能 可 以 提高 两 倍 。 


对 那个 纯粹 使 用 Python 实现 的 RC4 示例 来 说 ， 如 果 使 用 PyPy 和 4 个 职 
程 ， 与 使 用 CPython 和 4 个 职 程 相 比 ， 速 度 能 提高 3.8 倍 。 以 表 17-1 中 
使 用 CPython 和 一 个 职 程 的 运行 时 间 为 基准 ， 速 度 提升 了 7.8 倍 。 


A 如 果 使 用 Python 处 理 CPU 密集 型 工作 ， 应 该 试 试 

PyPy Chttp://pypy.org) 。 使 用 PyPy 运行 arcfour futures.py 脚本 ， 速 
度 快 了 3.8~5.1 倍 ; 具体 的 倍数 由 职 程 的 数量 决定 。 我 测试 时 使 用 
的 是 PyPy2.4.0， 这 一 版 与 Python 3.2.5 兼容 ， 因 此 标准 库 中 有 
concurrent .futures 模块 。 


下 面 通 过 一 个 演示 程序 来 研究 线程 池 的 行为 。 这 个 程序 会 创建 一 个 包含 
3 个 职 程 的 线程 池 ， 运 行 5 个 可 调用 的 对 象 ， 输 出 带 有 时 间 戳 的 消息 。 


17.44 ”实验 Executor .map 方 法 


各 想 并 发 运行 多 个 可 调用 的 对 象 ， 最 简单 的 方式 是 使 用 示例 17-3 中 见 
过 的 Executor.map 方法 。 示 例 17-6 中 的 脚本 演示 了 Executor .map 
方法 的 某 些 运作 细节 。 这 个 脚本 的 输出 在 示例 17-7 中 。 


示例 17-6 demo executor map.py: 简单 演示 
ThreadPoolExecutor 类 的 map 方法 


from time import sleep, strftime 
from concurrent import futures 


def display(*args): © 
print(strftime('[%H:%M:%S]'), end=' ' 
print(*args) 


loiter(n): @ 

msg = ‘{}loiter({}): doing nothing for {}s...' 
display(msg.format('\t'*n, n, n)) 

sleep(n) 

msg = ‘{}loiter({}): done.' 


display(msg.format('\t'*n, n)) 
return n * 10 


main(): 
display('Script starting. ') 
executor = futures. ThreadPoolExecutor(max_workers=3) @ 
results = executor.map(loiter, range(5)) © 
display('results:', results) 
display('Waiting for individual results:') 
for i, result in enumerate(results): @ 
display('result {}: {}'.format(i, result) ) 


@ 这 个 函数 的 作用 很 简单 ， 把 传 入 的 参数 打印 出 来 ， 并 在 前 面 加 上 
[HH:MM:SS] 格式 的 时 间 戳 。 


© loiter 函数 什么 也 没 做 ， 只 是 在 开始 时 显示 一 个 消息 ， 然 后 休眠 n 
PD, BUA ES RIN Fics “ME JRE A aE, AEE Ae HH 
n 的 值 确定 。 


© loiter 函数 返回 n * 16， 以 便 让 我 们 了 解 收集 结果 的 方式 。 
O £1) ThreadPoolExecutor 实例 ， 有 3 个 线程 。 


O 把 五 个 任务 提交 给 executor〈 因 为 只 有 3 个 线程 ， 所 以 只 有 3 ME 
务 会 立即 开始 : loiter(@). loiter(1) 和 loiter(2)) ; 这 是 非 阻 
FETA A o 


O 立即 显示 调用 executor.map 方法 的 结果 : 一 个 生成 器 ， 如 示例 17- 
7 中 的 输出 所 示 。 


@ for 循环 中 的 enumerate 函数 会 隐 式 调用 next(results)， 这 个 函 
BMS (AMD) 表示 第 一 个 任务 (loiter(6)) 的 _f 期 物 上 调用 
_f.result() Wis. result 方法 会 阻塞 ， 直 到 期 物 运 行 结束 ， 因 此 这 
个 循环 每 次 迭代 时 都 要 等 待 下 一 个 结果 做 好 准备 。 


我 建议 你 运行 示例 17-6， 看 着 结果 逐渐 显示 出 来 。 此 外 ， 还 可 以 修改 
ThreadPoolExecutor 构造 方法 的 max_workers 参数 ， 以 及 
executor.map 方法 中 range 函数 的 参数 ;或 者 自己 挑选 几 个 值 ， 以 列 
表 的 形式 传 给 map 方法 ， 得 到 不 同 的 延迟 。 


示例 17-7 是 运行 示例 17-6 得 到 的 输出 示例 。 


示例 17-7 示例 17-6 中 demo executor map.py 脚本 的 运行 示例 


$ python3 demo_executor_map.py 

[15:56:50] Script starting. © 

[15:56:50] loiter(@): doing nothing for @s... O 
[15:56:50] loiter(@): done. 


[15:56:50] loiter(1): doing nothing for is... © 

[15:56:50] loiter(2): doing nothing for 2s... 

[15:56:50] results: <generator object result_iterator at @x106517168> @ 
[15:56:50] loiter(3): doing nothing for 3s... O 


[15:56:58] Waiting for individual results: 
[15:56:50] result 0: 6 © 
[15:56:51] loiter(1): done. @ 


[15:56:51] loiter(4): doing nothing for 4s... 
[15:56:51] result 1: 10 © 


[15:56:52] loiter(2): done. © 

[15:56:52] result 2: 20 

[15:56:53] loiter(3): done. 

[15:56:53] result 3: 30 

[15:56:55] loiter(4): done. @ 


[15:56:55] result 4: 40 


O 这 次 运行 从 15:56:50 开始 。 


O 第 一 个 线程 执行 1oiter(8)， 因 此 休眠 0 秒 ， 甚 至 会 在 第 二 个 线程 


开始 之 前 就 结束 ， 不 过 具体 情况 因 人 而 异 。* 


?具体 情况 因 人 而 异 : 对 线程 来 说 ， 你 永远 不 知道 某 一 时 刻 事件 的 具体 排序 ， 有 可 能 在 另 一 台 
设备 中 会 看 到 loiter(1) Æ loiter(0) 结束 之 前 开始 ， 这 是 因为 sleep 函数 总 会 释放 GIL. 
因此 ， 即 使 休眠 0 秒 ，Python 也 可 能 会 切换 到 另 一 个 线程 。 


an 


© loiter(1) 和 1oiter(2) 立即 开始 (因为 线程 池 中 有 三 个 职 程 ， 可 
以 并 发 运行 三 个 函数 )。 


@ 这 一 行 表明 ，executor .map 方法 返回 的 结果 (results) 是 生成 
器 ; 不 管 有 多 少 任务 ， 也 不 管 max_workers 的 值 是 多 少 ， 目 前 不 会 阻 
塞 。 


© loiter(8) 运行 结束 了 ， 第 一 个 职 程 可 以 启动 第 四 个 线程 ， 运 行 
loiter(3). 


O 此 时 执行 过 程 可 能 阻塞 ， 有 具体 情况 取决 于 传 给 loiter MANE 
数 : results 生成 器 的 next _ 方法 必须 等 到 第 一 个 期 物 运行 结束 。 
此 时 不 会 阻塞 ， 因 为 loiter(0) 在 循环 开始 前 结束 。 注 意 ， 这 一 点 之 
前 的 所 有 事件 都 在 同一 刻 发 生 一 一 15:56:50。 


@ 一 秒 钟 后 ， 即 15:56:51, loiter(1) 运行 完毕 。 这 个 线程 闲置 ， 可 
以 开始 运行 loiter(4). 


O 显示 loiter(1) 的 结果 : 10。 现 在 ，for 循环 会 阻塞 ， 等 待 
loiter(2) 的 结果 。 


同上 : loiter(2) 运行 结束 ， 显 示 结 果 ; loiter(3) 也 一 样 。 


@ 2 秒 钟 后 loiter(4) 运行 结束 ， 因 为 loiter(4) 在 15:56:51 时 开 
始 ， 体 眠 了 4 秘 。 


Executor .map 函数 易于 使 用 ， 不 过 有 个 特性 可 能 有 用 ， 也 可 能 没 用 ， 

具体 情况 取决 于 需求 :这 个 函数 返回 结果 的 顺序 与 调用 开始 的 顺序 一 

致 。 如 果 第 一 个 调用 生成 结果 用 时 10 秒 ， 而 其 他 调用 只 用 1 秒 ， 代 码 
会 阻塞 10 秒 ， 获 取 map 方法 返回 的 生成 器 产 出 的 第 一 个 结果 。 在 此 之 
后 ， 获 取 后 续 结 有 果 时 不 会 阻 罕 ， 因 为 后 续 的 调用 已 经 结束 。 如 果 必 须 等 
到 获取 所 有 结果 后 再 处 理 ， 这 种 行为 没 问 题 ， 不 过 ， 通 常 更 可 取 的 方式 
是 ， 不 管 提交 的 顺序 ， 只 要 有 结果 就 获取 。 为 此 ， 要 把 

Executor .submit 方法 和 futures.as_completed 函数 结合 起 来 使 

用 ， 像 示例 17-4 中 那样 。17.5.2 节 会 继续 讨论 这 种 方式 。 


A executor .submit 和 futures.as_completed 这 个 组 合 比 
executor.map 更 灵活 ， 因 为 submit 方法 能 处 理 不 同 的 可 调用 对 
象 和 参数 ， 而 executor .map 只 能 处 理 参数 不 同 的 同一 个 可 调用 对 
象 。 此 外 ， 传 给 futures.as_completed 函数 的 期 物 集 合 可 以 来 
自 多 个 Executor 实例 ， 例 如 一 些 由 ThreadPoolExecutor 实例 
创建 ， 另 一 些 由 ProcessPoolExecutor 实例 创建 。 


下 一 市 根据 新 的 需求 继续 实现 下 载 国旗 的 示例 ， 这 一 次 不 使 用 
executor.map 方法 ， 而 是 从 代 futures.as_completed 函数 返回 的 
结果 。 


17.5 “显示 下 载 进 度 并 处 理 错误 


前 面 说 过 ，17.1 节 中 的 几 个 脚本 没有 处 理 错误 ， 这 样 做 是 为 了 便于 阅读 
和 比较 三 种 方案 〈 依 序 、 多 线程 和 异步 ) 的 结构 。 


为 了 处 理 各 种 错误 ， 我 创建 了 flags2 系列 示例 。 


flags2_common.py 


这 个 模块 中 包含 所 有 flags2 示例 通用 的 函数 和 设置 ， 例 如 main 
函数 ， 负 责 解 析 命令 行 参数 、 计 时 和 报告 结果 。 这 个 脚本 中 的 代码 其 实 
是 提供 支持 的 ， 与 本 章 的 话题 没有 直接 关系 ， 因 此 我 把 源码 放 在 附录 A 
里 的 示例 A-10 中 。 


flags2_sequential.py 


能 正确 处 理 错误 ， 以 及 显示 进度 条 的 HTTP 依 序 下 载 客 户 端 。 
flags2_threadpool.py 脚本 会 用 到 这 个 模块 里 的 download_one 函数 。 


flags2_threadpool.py 


基于 futures. ThreadPoolExecutor 类 实现 的 HTTP 并 发 客户 
端 ， 演 示 如 何人 处 理 错 误 ， 以 及 集成 进度 条 。 


flags2 asyncio.py 


与 前 一 个 脚本 的 作用 相同 ， 不 过 使 用 asyncio 和 aiohttp 实现 。 
这 个 脚本 在 第 18 章 的 18.4 节 中 分 析 。 


Q 
A MERA 


在 公开 的 HTTP 服务 器 上 测试 HTTP 并 发 客户 端 时 要 小 心 ， 因 为 每 
秒 可 能 会 发 起 很 多 请 求 ， 这 相当 于 是 拒绝 服务 (DoS) 攻击 。 我 们 
不 想 攻 击 任 何人 ， 只 是 在 学 习 如 何 开 发 高 性 能 的 客户 端 。 访 问 公 开 
的 服务 器 时 一 定 要 管 好 自己 的 客户 端 。 做 高 并 发 试验 时 ， 应 该 在 本 


地 架设 HTTP 服务 器 供 测 试 。 本 书 代 码 仓库 中 的 17- 

futures/countries/ 目录 里 有 个 README.rst 文件 
Chttps://github.com/fluentpython/example-code/blob/master/17- 

futures/countries/README.rst) ， 那 里 有 架设 说 明 。 


flags2 系列 示例 最 明显 的 特色 是 ， 有 使 用 TQDM 包 

Chttps://github.com/noamraph/tqdm) 实现 的 文本 动画 进度 条 。 我 在 
YouTube 上 发 布 了 一 个 108 秒 的 视频 Chttps://www.youtube.com/watch? 
v=M8Z65tA1514) ， 展 示 了 这 个 进度 条 ， 还 对 比 了 三 个 flags 脚本 的 下 
载 速 度 。 在 那个 视频 中 ， 我 先 运行 依 序 下 载 的 脚本 ， 不 过 32 秒 后 中 断 
了 ， 因 为 那个 脚本 要 用 5 分 多 钟 访问 676 个 URL， 下 载 194 面 国旗 ， 然 
后 ， 我 分 别 运行 多 线程 和 asyncio 版 三 次 ， 每 次 都 在 6 秒 之 内 【〔 即 快 
了 60 多 倍 ) 完成 任务 。 图 17-1 中 有 两 个 截图 ， 分 别 是 
flags2_threadpool.py 脚本 运行 中 和 运行 结束 后 。 


eoo 


图 17-1: (左上 ) flags2 threadpool.py 运行 中 ， 显 示 着 tqdm 包 生 成 
的 进度 条 ; AEFT) 同一 个 终端 窗口 ， 脚 本 运行 完毕 后 


TQDM 包 特 别 易于 使 用 ， 项 目的 README.md 文件 

Chttps://github.com/noamraph/tqdm/blob/master/README.md) 中 有 个 GIF 
动画 ， 演 示 了 最 简单 的 用 法 。 安 装 tqdm 包 之 后 ， 在 Python 控制 台中 
输入 下 述 代 码 ， 会 在 注释 那里 看 到 进度 条 动画 : 


8 可 以 使 用 pip install tqdm 命令 安装 tqdm 包 。 一 一 编者 注 


>>> import time 

>>> from tqdm import tqdm 

>>> for i in tqdm(range(10e@)): 
time.sleep(.@1) 


>>> # -> 进度 条 会 出 现在 这 里 


除了 这 个 灵巧 的 效果 之 外 ，tqdm 函数 的 实现 方式 也 很 有 趣 : 能 处 理 任 
何 可 迭代 的 对 象 ， 生 成 一 个 迭代 絮 ， 使 用 这 个 迭代 絮 时 ， 显 示 进 度 条 和 
完成 全 部 迭代 预计 的 剩余 时 间 。 为 了 计算 预计 剩余 时 间 ，tqdm 函数 要 
获取 一 个 能 使 用 len 函数 确定 大 小 的 可 迭代 对 象 ， 或 者 在 第 二 个 参数 中 
指定 预期 的 元 素数 量 。 借 助 在 flags2 系列 示例 中 集成 TQDM， 我 们 可 
以 深入 了 解 这 几 个 脚本 的 运作 方式 ， 因 为 我 们 必须 使 用 
futures.as_ completed 函数 
Chttps://docs.python.org/3/library/concurrent. futures. html#concurrent.futures.a 
和 asyncio.as_completed 函数 
Chttps://docs.python.org/3/library/asyncio- 
task.html#asyncio.as_completed) ， 这 样 tqdm 函数 才能 在 每 个 期 物 运 行 
结束 后 更 新 进度 。 


flags2 系列 示例 的 力 一 个 特色 是 ， 提 供 了 命令 行 接口 。 三 个 脚本 接受 
的 选项 相同 ， 运 行 任意 一 个 脚本 时 指定 -h 选项 就 能 看 到 所 有 选项 。 示 
例 17-8 显示 的 是 帮助 文本 。 


示例 17-8 flags2 系列 脚本 的 帮助 界面 


$ python3 flags2_threadpool.py -h 
usage: flags2_threadpool.py [-h] [-a] [-e] [-1 N] [-m CONCURRENT] [-s LABEL] 


[CC [CC ...]] 
Download flags for country codes. Default: top 20 countries by population. 


positional arguments: 
CC country code or ist letter (eg. B for BA...BZ) 


optional arguments: 


-h, --help show this help message and exit 
-a, --all get all available flags (AD to ZW) 
-e, --every get flags for every possible code (AA...ZZ) 


-1 N, --limit N limit to N first codes 


-m CONCURRENT, --max_req CONCURRENT 
maximum concurrent requests (default=3@) 

-s LABEL, --server LABEL 
Server to hit; one of DELAY, ERROR, LOCAL, REMOTE 
(default=LOCAL ) 

-v, --verbose output detailed progress info 


所 有 选项 都 是 可 选 的 。 下 面 说 明 最 重要 的 选项 。 


不 能 忽略 的 选项 是 -s/--server: 用 于 选择 测试 时 使 用 的 HTTP 服务 器 
和 基 URL。 这 个 选项 的 值 可 以 设 为 下 述 4 个 字符 串 〈 不 区 分 大 小 写 ) ， 
用 于 确定 脚本 从 哪里 下 载 国旗 。 


LOCAL 


使 用 http://localhost:8001/flags; 这 是 默认 值 。 你 应 该 配置 
一 个 本 地 HTTP 服务 器 ， 响 应 8001 端口 的 请 求 。 我 测试 时 使 用 Nginx。 
本 章 示 例 代 码 中 的 README.rst 文件 

Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README. rst) 说 明了 如 何 安 装 和 配置 Nginx。 


REMOTE 


使 用 http://flupy.org/data/flags; 这 是 我 搭建 的 公开 网 站 ， 
托管 在 一 个 共享 服务 器 中 。 请 不 要 使 用 太 多 并 发 请 求 访问 这 个 网 
站 。flupy.org 域名 由 Cloudflare CDN Chttp://www.cloudflare.com/) 的 
一 个 免费 账户 管理 ， 因 此 第 一 次 下 载 时 会 发 现 很 慢 ， 不 过 一 旦 CDN 有 
了 缓存 ， 速 度 就 会 变 快 。” 


9 测试 这 些 脚 本 时 ， 我 向 那个 廉价 的 虚拟 主机 发 起 了 一 些 并 发 请 求 ， 但 是 得 到 的 响应 是 “HTTP 
503 errors—Service Temporarily Unavailable”。 后 来 我 配置 了 Cloudflare， 现 在 没有 这 个 错误 了 。 


DELAY 


使 用 http://localhost:8002/flags; 这 是 一 个 代理 ， 会 延迟 
HTTP 响应， 监听 的 端口 是 8002。 我 在 本 地 的 Nginx 服务 器 前 加 上 了 
Mozilla Vaurien， 以 此 引入 延 运 。 前 面 提 到 的 那个 README. rst 文件 

(https://github.com/fluentpython/example-code/blob/master/17- 


futures/countries/README.rst) 中 有 运行 Vaurien 代理 的 说 明 。 
ERROR 
使 用 http://localhost:8003/flags; 这 是 一 个 代理 ， 监 听 


8003 端口 ， 引 入 了 HTTP 错误 ， 并 延迟 啊 应 。 这 个 服务 器 使 用 的 
Vaurien 配置 与 前 面 不 同 。 


全 、 仅 当 在 本 地 架设 HTTP 服务 器 ， 并 且 监 听 8001 端口 时 ， 才 

能 使 用 LOCAL 选项 。 DELAY 和 ERROR 选项 需要 代理 ， 分 别 监 听 
8002 和 8003 } 出口。 在 GitHub 上 本 书 的 代码 仓库 中 有 个 17- 
futures/countries/README. rst 文件 
Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README. rst) ， 说 明了 如 何 配 置 Nginx 和 Mozilla 
Vaurien， 以 实现 这 些 选项 的 要 求 。 


默认 情况 下 ， 各 个 flags2 脚本 会 使 用 默认 的 并 发 连接 数 〈 各 脚本 有 所 
不 同 ) 从 LOCAL 服务 器 (http://localhost: 8001/flags) 中 下 载 人 口 最 多 的 

20 个 国家 的 国旗 。 示 例 17-9 是 全 部 使 用 默认 值 运 行 flags2_sequential.py 
脚本 得 到 的 输出 。 


示例 17-9 全 部 使 用 默认 值 运行 flags2 sequential.py 脚本 : LOCAL 
服务 器 ， 人 口 最 多 的 20 国 国 旗 ，1 个 并 发 连接 


$ python3 flags2_sequential.py 

LOCAL site: http://localhost:8001/flags 
Searching for 20 flags: from BD to VN 

1 concurrent connection will be used. 


26 flags downloaded. 
Elapsed time: 0.10s 


我 们 可 以 使 用 多 种 不 同 的 方式 选择 下 载 哪 些 国 家 的 国旗 。 示 例 17-10 展 
示 如 何 下 载 国家 代码 以 字母 A、B 或 C 开头 的 所 有 国旗 。 


示例 17-10 运行 flags2 threadpool.py 脚本 ， 从 DELAY 服务 器 中 下 
载 国家 代码 以 A、B 或 C 开头 的 所 有 国旗 


$ python3 flags2 threadpool.py -s DELAY a b c 
DELAY site: http://localhost:8002/flags 
Searching for 78 flags: from AA to CZ 

36 concurrent connections will be used. 


43 flags downloaded. 
35 not found. 
Elapsed time: 1.72s 


不 管 使 用 什么 方式 选择 国家 代码 ， 下 载 的 国旗 数量 都 可 以 使 用 -1/-- 
Limit 选项 限制 。 示 例 17-11 演示 如 何 发 起 100 个 请 求 ， 结 合 -a 和 -1 
选项 下 载 100 面 国 旗 。 


示例 17-11 运行 flags2 asyncio.py 脚本 ， 使 用 100 个 并 发 请 求 〈- 
m 100) 从 ERROR 服务 器 中 下 载 100 面 国旗 (-al 100) 


$ python3 flags2 asyncio.py -s ERROR -al 100 -m 100 
ERROR site: http://localhost:8003/flags 

Searching for 100 flags: from AD to LK 

166 concurrent connections will be used. 


73 flags downloaded. 
27 errors. 
Elapsed time: 0.64s 


以 上 是 flags2 系列 示例 的 用 户 界 面 。 下 面 分 析 实 现 方式 。 


17.5.1 flags2 系 列 示 例 处 理 错误 的 方式 


三 个 示例 在 负责 下 载 一 个 文件 的 函数 Cdownload_one) 中 使 用 相同 
的 有 mS Ab FH HTTP 404 错误 (未 找到 ) 。 其 他 异常 则 向 上 冒 泡 ， 交 给 
download_many 函数 处 理 。 


我 们 还 是 先 分 析 依 序 下 载 的 代码 ， 因 为 这 些 代码 更 易于 理解 ， 而 且 使 用 
线程 池 的 脚本 重用 了 这 里 的 大 部 分 代码 。 示 例 17-12 列 出 的 是 
flags2_sequential.py 和 flags2 threadpool.py 脚本 真正 用 于 下 载 的 函数 。 


示例 17-12 flags2 sequential.py: 负责 下 载 的 基本 函数 ; 


flags2_threadpool.py 脚本 重用 了 这 两 个 函数 


def get_flag(base url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 
if resp.status_code != 200: © 
resp.raise for_status() 
return resp.content 


download_one(cc, base_url, verbose=False): 
try: 
image = get flag(base url, cc) 
except requests.exceptions.HTTPError as exc: @ 
res = exc.response 
if res.status_code == 404: 
status = HTTPStatus.not_found © 
msg = ‘not found 
else: © 
raise 
else: 
save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: © 
print(cc, msg) 


return Result(status, cc) © 


Q get_flag 函数 没有 处 理 错误 ， 当 HTTP 代码 不 是 200 时 ， 使 用 


requests.Response.raise for status 方法 殷 出 异常 。10 


10HTTP 代码 200 表示 成 功 完 成 HTTP WR. —— IE 


© download_one 函数 捕获 requests.exceptions.HTTPError 异 
常 ， 特 别处 理 HTTP 404 错误 .….……. 


@...... 方法 是 ， 把 局 部 变量 status 设 为 
HTTPStatus.not_found; HTTPStatus 是 从 flags2_common 模块 
〈 见 示例 A-10) 中 导入 的 Enum 对 象 。 


O Hawi Ait HTTPError 异常 ， 这 些 异 常会 向上 冒 泡 ， 传 给 调用 
ie 


O 如 末 在 命令 行 中 t aE  -v/--verbose 选项 ， 显 示 国 家 代码 和 状态 
消息 ， 这 就 是 详细 模式 中 看 到 的 进度 信息 。 


Q download_one 函数 的 返回 值 是 一 个 namedtuple 一 一 Result， 其 中 
有 个 status 字段 ， 其 值 是 HTTPStatus .not_found 或 
HTTPStatus.ok. 


示例 17-13 FIA download many 函数 的 依 序 下 载 版 。 代 码 虽 然 简 
单 ， 不 过 值得 分 析 一 下 ， 以 便 后 面 与 并 发 版 对 比 。 我 们 要 关注 的 是 报告 
进度 、 处 理 错误 和 统计 下 载 数量 的 方式 。 


不 例 17-13 flags2_sequential.py: 实现 依 序 下 载 的 download_many 
函数 


def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() © 
cc_iter = sorted(cc_list) @ 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) © 
for cc in cc_iter: © 
try: 
res = download _one(cc, base_url, verbose) © 
except requests.exceptions.HTTPError as exc: © 
error_msg = 'HTTP error f{res.status_code} - {res.reason}' 
error msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error' 


else: O 
error_msg = '' 
status = res.status 


if error_msg: 
status = HTTPStatus.error © 
counter[status] += 1 
if verbose and error_msg: @ 
print('*** Error for {}: {}'.format(cc, error_msg) ) 


return counter @ 


@ 这 个 Counter 实例 用 于 统计 不 同 的 下 载 状 
态 : HTTPStatus.ok、HTTPStatus .not_found 或 
HTTPStatus.error. 


O 按 字 母 顺序 传 入 的 国家 代码 列表 ， 保 存在 cc_iter 变量 中 。 


O 如 果 不 是 详细 模式 ， 把 cc_iter 传 给 tqdm 函数 ， 返 回 一 个 迭代 
as, Pot cc_iter 中 的 元 素 ， 还 会 显示 进度 条 动画 。 


O 这 个 for 循环 迭代 cc_iter...... 
回 不 断 调用 download_one 函数 ， 执 行 下 载 。 


O 处 理 geti es 函数 抛 出 的 与 HTTP 有 关 的 且 download_one KOS 
有 处 理 的 异 


O 处 理 其 他 与 网 络 有 关 的 异常 。 其 他 异常 会 中 止 这 个 脚本 ， 因为 调用 
download_many ei 20H) flags2_common.main 函数 中 没有 
try/except i. 


O 如 果 没 有 异常 从 download_one 函数 中 逃 出 ， 从 download_one pf 
数 返回 的 namedtuple (HTTPStatus) 中 获取 status. 


O 如 果 有 错误 ， 把 局 部 变量 status 设 为 相应 的 状态 。 

@ 以 HTTPStatus (—^ Enum) 中 的 值 为 键 ， 增 加 计数 器 。 

O 如 果 是 详细 模式 ， 而 且 有 错误 ， 显 示 带 有 当前 国家 代码 的 错误 消 
息 。 


DREI counter, LATE main 函数 能 在 最 终 的 报告 中 显示 数量 。 
下 面 分 析 重 构 后 的 线程 池 示 例 


flags2 threadpool.py。 


17.5.2 ”使 用 futures.as_completed 函 数 


为 了 集成 TQDM 进度 条 ， 并 处 理 各 次 请 求 中 的 错误 ， 
flags2_threadpool.py 脚本 用 到 我 们 见 过 的 


futures. ThreadPoolExecutor 类 和 futures.as_ completed 函数 。 
示例 17-14 是 flags2_threadpool.py 脚本 的 完整 代码 清单 。 这 个 脚本 只 实 
现 了 download_many 函数 ， 其 他 函数 都 重用 flags2_common 和 
flags2_sequential 模块 里 的 。 


示例 17-14 flags2 threadpool.py: 完整 的 代码 清单 


import collections 
from concurrent import futures 


import requests 
import tqdm @ 


from flags2_common import main, HTTPStatus @ 
from flags2 sequential import download one © 


DEFAULT_CONCUR_REQ = 30 @ 
MAX_CONCUR_REQ = 1000 © 


def download_many(cc_list, base_url, verbose, concur_req): 
counter = collections.Counter() 
with futures. ThreadPoolExecutor(max_workers=concur_req) as executor: © 
to do map = {} @ 
for cc in sorted(cc_list): ® 
future = executor.submit(download_one, 
cc, base_url, verbose) © 
to do map[future] = cc 四 
done_iter = futures.as_completed(to_do map) © 
if not verbose: 
done_iter = tqdm.tqdm(done_iter, total=len(cc_list)) o 
for future in done_iter: © 
try: 
res = future.result() © 
except requests.exceptions.HTTPError as exc: @ 
error_msg = 'HTTP {res.status_ code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error' 
else: 
error_msg = '' 
status = res.status 


if error_msg: 
status = HTTPStatus.error 


counter[status] += 1 
if verbose and error_msg: 
cc = to do map[future] @ 
print('*** Error for {}: {}'.format(cc, error_msg) ) 
return counter 


if _name == ' main_': 
main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 


@ 导入 显示 进度 条 的 库 。 


© 从 flags2_common 模块 中 导入 一 个 函数 和 一 个 Enum. 


© 重用 flags2_sequential 模块 ( 见 示例 17-12) 里 的 
download_one 函数 。 


O 如 果 没 有 在 命令 行 中 指定 -m/--max_reg 选项 ， 使 用 这 个 值 作为 并 
发 请 求 数 的 最 大 值 ， 也 就 是 线程 池 的 大 小 ; 真实 的 数量 可 能 会 比 这 少 ， 
例如 下 载 的 国旗 数量 较 少 。 


O 不 管 要 下 载 多 少 国旗 ， 也 不 管 -m/--max_red 命令 行 选项 的 值 是 多 
少 ，MAX_CONCUR_REQ 会 限制 最 大 的 并 发 请 求 数 ， 这 是 一 项 安全 预防 措 
施 。 


@ jE max_workers 设 为 concur_req， 创 建 ThreadPoolExecutor 实 
fil; main 函数 会 把 下 面 这 三 个 值 中 最 小 的 那个 赋值 给 

concur_req: MAX_CONCUR_REQ. cc_list 的 长 度 、-m/--max_red 命 
令 行 选项 的 值 。 这 样 能 避免 创建 超过 所 需 的 线程 。 


O 这 个 字典 把 各 个 Future 实例 (表示 一 次 下 载 ) 映射 到 相应 的 国家 代 
码 上 ， 在 处 理 错 误 时 使 用 。 


O 按 字母 顺序 迭代 国家 代码 列表 。 结 果 的 顺序 主要 由 HTTP 响应 的 时 间 
长 短 决定 ， 不 过 ， 如 果 线 程 池 的 大 小 〈 由 concur_req wie) 比 
len(cc_list) 小 得 多 ， 可 能 会 友 现 有 按 字 母 顺 序 批量 下 载 的 情况 。 


© 每 次 调用 executor. submit 方法 排 定 一 个 可 调用 对 象 的 执行 时 间 ， 
然后 返回 一 个 Future 实例 。 第 一 个 参数 是 可 调用 的 对 象 ， 其 余 的 参数 


是 传 给 可 调用 对 象 的 参数 。 
O 把 返回 的 future 和 国家 代码 存储 在 字典 中 。 


@ futures.as_completed 函数 返回 一 个 欠 代 器 ， 在 期 物 运 行 结 束 后 
产 出 期 物 。 


O 如 果 不 是 详细 模式 ， 把 as_completed 函数 返回 的 结果 传 给 tqdm K 
数 ， 显 示 进 度 条 ; 因为 done_iter 没有 len 函数 ， 所 以 我 们 必须 通过 
total= 参数 告诉 tqdm 函数 预期 的 元 素数 量 ， 这 样 tqdm 才能 预计 剩余 
的 工作 量 。 


@ 迭代 运行 结束 后 的 期 物 。 


D 在 期 物 上 调用 result 方法 ， 要 么 返回 可 调用 对 象 的 返回 值 ， 要 么 抛 
出 可 调用 的 对 象 在 执行 过 程 中 捕获 的 异常 。 这 个 方法 可 能 会 阻塞 ， 等 待 
确定 结果 ; 不 过 ， 在 这 个 示例 中 不 会 阻塞 ， 因 为 as_completed 函数 只 
返回 已 经 运行 结束 的 期 物 。 


@ 处 理 可 能 出 现 的 异常 ， 这 个 函数 余下 的 代码 与 依 序 下 载 版 
download_many 函数 一 样 〈 见 示例 17-13) ， 不 过 下 一 点 除外 。 


@ 为 了 给 错误 消息 提供 上 下 文 ， 以 当前 的 future 为 键 ， 从 
to_do_map 中 获取 国家 代码 。 在 依 序 下 载 版 中 无 须 这 么 做 ， 因 为 那 一 版 
迭代 的 是 国家 代码 ， 所 以 知道 当前 国家 的 代码 ;而 这 里 迭代 的 是 期 物 。 


示例 17-14 用 到 了 一 个 对 futures.as_completed 函数 特别 有 用 的 惯 
用 法 : 构建 一 个 字典 ， 把 各 个 期 物 映射 到 其 他 数据 (期 物 运 行 结束 后 可 
能 有 用 ) 上 。 这 里 ， 在 to_do_map 中 ， 我 们 把 各 个 期 物 映射 到 对 应 的 
国家 代码 上 。 这 样 ， 尽 管 期 物 生 成 的 结果 顺序 已 经 乱 了 ， 依 然 便于 使 用 
结果 做 后 续 处 理 。 


Python 线程 特别 适合 VO 密集 型 应 用 ，concurrent .futures 模块 大 大 
简化 了 某 些 使 用 场景 下 Python 线程 的 用 法 。 我 们 对 

concurrent. futures 模块 基本 用 法 的 介绍 到 此 结束 。 下 面 讨论 不 适合 
使 用 ThreadPoolExecutor 或 ProcessPoolExecutor 类 时 ， 有 哪些 
BAR. 


17.5.3 ”线程 和 多 进程 的 替代 方案 


Python 自 0.9.8 版 〈1993 F) 就 文 持 线程 了 ，concurrent .futures 只 
不 过 是 使 用 线程 的 最 新 方式 。Python 3 废弃 了 原来 的 thread 模块 ， 换 
成 了 高 级 的 threading 模块 
Chttps://docs.python.org/3/library/threading.html) 。 M gre 
futures. ThreadPoolExecutor 类 对 某 个 作业 来 说 不 够 灵活 ， 可 能 要 
使 用 threading 模块 中 的 组 件 (如 Thread. Lock. Semaphore 等 ) 
自行 制定 方案 ， 比 如 说 使 用 queue 模块 
Chttps://docs.python.org/3/library/queue.html) 创建 线程 安全 的 队列 ， 在 
线程 之 间 传 递 数据 。futures .ThreadPoolExecutor 类 已 经 封装 了 这 
些 组 件 。 


"threading 模块 自 Python 1.5.1 (1998 年 ) 就 已 存在 ， 不 过 有 些 人 仍然 继续 使 用 旧 的 thread 
模块 。Python 3 把 thread 模块 重 命名 为 _thread， 以 此 强调 这 是 低层 实现 ， 不 应 该 在 应 用 代 
码 中 使 用 。 


对 CPU 密集 型 工作 来 说 ， 要 局 动 多 个 进程 ， 规 避 GIL。 创 建 多 个 进程 最 
简单 的 方式 是 ， 使 用 futures.ProcessPoolExecutor 类 。 不 过 和 前 
面 一 样 ， 如 果 使 用 场景 较 复杂 ， 需 要 更 高 级 的 工 

H., multiprocessing 模块 
Chttps://docs.python.org/3/library/multiprocessing.html) 的 API 与 
threading 模块 相仿 ， 不 过 作业 交 给 多 个 进程 处 理 。 对 简单 的 程序 来 
说 ， 可 以 用 multiprocessing 模块 代替 threading 模块 ， 少 量 改 动 即 
Al, A, multiprocessing 模块 还 能 解决 协作 进程 遇 到 的 最 大 挑 
战 : 在 进程 之 间 传 递 数据 。 


17.6 ”本章 小 结 


本 章 开 头 对 两 个 HTTP 并 发 客户 端 和 一 个 依 序 下 载 的 客户 端 做 了 对 比 ， 
结 末 是 并 及 版 比 依 序 下 载 的 脚本 性 能 高 很 多 。 


分 析 过 使 用 concurrent. futures 实现 的 第 一 个 示例 后 ， 我 们 深入 探 
讨 了 期 物 对 象 ， 即 concurrent .futures.Future 或 asyncio.Future 
类 的 实例 ， 着 重 说 明了 二 者 的 共同 点 《区别 在 第 18 章 详 述 ) 。 我 们 说 
明了 如 何 使 用 Executor.submit(...) 方法 创建 期 物 ， 以 及 如 何 使 用 
concurrent .futures.as_completed(...) 函数 迭代 运行 结束 的 期 


接 下 来 ， 我 们 分 析 了 为 什么 尽管 有 GIL, Python 线程 仍然 适合 VO 密集 
型 应 用 : 标准 库 中 每 个 使 用 C 语言 编写 的 IO 函数 都 会 释放 GIL, 
此 ， 当 某 个 线程 在 等 待 /O WY, Python 调度 程序 会 切换 到 另 一 个 线程 。 
然后 ， 我 们 讨论 了 如 何 借助 

concurrent. futures.ProcessPoolExecutor 类 使 用 多 进程 ， 以 此 绕 
FF GIL， 使 用 多 个 CPU 核心 运行 加 密 算 法 ， 并 通过 四 个 职 程 实现 一 倍 多 
的 速度 提升 。 


在 随后 的 一 节 中 ， 我 们 深入 分 析 了 
concurrent.futures.ThreadPoolExecutor 类 的 运作 方式 。 为 了 说 
明 问 题 ， 我 特意 举 了 一 个 示例 ， 创 建 几 个 任务 ， 但 是 休眠 几 秒 钟 ， 什 么 
也 不 做 ， 只 是 显示 带 有 时 间 惟 的 状态 。 


接 下 来 ， 本 章 回 到 下 载 国旗 的 示例 ， 增 加 了 进度 条 和 错误 处 理 代 码 ， 并 
且 进 一 步 探 索 了 future.as_completed 生成 器 函数 。 我 们 得 知 一 个 常 
见 的 做 法 : 把 期 物 存储 在 一 个 字典 中 ， 提 区 期 物 时 把 期 物 与 相关 的 信息 
联系 起 来 这 样 ，as_completed 迭代 喜 产 出 期 物 后 ， 就 可 以 使 用 那些 


Huo 


最 后 ， 本 章 简要 说 明了 多 线程 和 多 进程 并 发 的 低层 实现 《但 却 更 灵活 ) 
一 一 threading fll multiprocessing 模块 。 这 两 个 模块 代表 在 Python 
中 使 用 线程 和 进程 的 传统 方式 。 


17.7 ”延伸 阅读 


Brian Quinlan 是 concurrent.futures 包 的 贡献 者 ， 他 在 PyCon 
Australia 2010 上 所 做 的 “The Future Is 

Soon!” (http:/www.pyvideo.org/video/480/pyconau-2010--the-future-is- 
soon) 演讲 对 这 个 包 做 了 介绍 。Quinlan 演讲 时 没 用 幻灯 片 ， 而 是 直接 在 
Python 控制 台中 输入 代码 ， 以 此 说 明 这 个 库 的 用 途 。 作 为 引子 ， 他 在 演 
讲 中 推荐 了 XKCD 漫画 家 和 程序 员 Randall Munroe 制作 的 一 个 视频 ， 
Randall 在 这 个 视频 中 对 Google Maps 发 起 了 DoS 攻击 〈 非 有 意 为 

之 ) ， 绘 制 一 个 彩色 地 图 ， 显 示 他 驾车 绕 城 的 路 线 。 这 个 库 的 正式 介绍 
文件 是 “PEP 3148—futures—execute computations 

asynchronously” (https:/www.python.org/dev/peps/pep-3148/)〉。 在 这 个 
PEP 中 ，Quinlan 写 道 ，concurrent.futures 库 “ 受 Java 的 
java.util.concurrent 包 影 响 很 大 ”。 


JanPalach 写 的 Parallel Programming with Python (Packt 出 版 社 ) 一 书 
介绍 了 几 个 并 发 编程 的 工具 ， 包 括 concurrent .futures、threading 
All multiprocessing 库 。 除 了 标准 库 之 外 ， 这 本 书 还 讨论 了 

Celery Chttp://celery.readthedocs.org/en/latest/getting- 
started/introduction.html) 。 这 是 一 个 任务 队列 ， 用 于 把 工作 分 配给 多 个 
线程 和 进程 ， 甚 至 是 不 同 的 设备 。 在 Django 社区 中 ， 为 了 减轻 繁重 任 
务 的 负担 (例如 ， 把 生成 PDF 的 工作 交 给 其 他 进程 ， 防 止 HTTP 啊 应 延 
IRAE RK) , Celery 可 能 是 使 用 最 广泛 的 系统 。 


Beazley 与 Jones 的 著作 《Python Cookbook (28% 3 fig) 中 文 版 》 有 多 个 使 
用 concurrent.futures 的 诀 穹 ， 首 先是 “11.12 理解 事件 驱动 型 

VO”. “12.7 创建 线程 池 ” 展 示 了 一 个 简单 的 TCP 回 显 服务 嚣 ，“12.8 K 
现 简单 的 并 行 编程 ?提供 了 一 个 特别 实用 的 示例 : 借助 
ProcessPoolExecutor 实例 分 析 一 整个 目录 中 使 用 gzip 压缩 的 
Apache 日 志文 件 。 这 本 书 的 第 12 章 对 线程 做 了 更 多 介绍 ， 特 别 值得 一 
提 的 是 “12.10 定义 一 个 Actor 任务 "”， 这 个 诀窍 演 示 了 参与 者 模型 : 通过 
传递 消息 协调 多 个 线程 的 可 行 方式 。 


Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 
效 方法 》 一 书 中 有 一 章 探 讨 了 并 发 的 多 个 话题 ， 包 括 : 协 程 ， 使 用 


concurrent. futures 库 处 理 线 程 和 进程 ; 不 使 用 
ThreadPoolExecutor 类 ， 而 使 用 锁 和 队列 做 线程 编程 。 


Micha Gorelick 与 Ian Ozsvald 写 的 High Performance Python (O'Reilly 出 
版 社 ) 和 Doug Hellmann 写 的 《Python 标准 库 》 都 涵盖 了 线程 和 进程 。 


藻 想 了 解 不 使 用 线程 或 回调 的 现代 并 发 方式 ， 推 荐 阅读 Paul Butcher 写 
的 《七 周 七 并 发 模型 》。 芋 我 喜欢 这 本 书 的 副标题 “When Threads 
Unravel”( 线 程 束 手 无 策 之 时 ) 。 这 本 书 的 第 1 章 简单 介绍 了 线程 和 
锁 ， 后 面 的 六 章 探 讨 了 不 同 语言 (不 包括 Python, Ruby 和 JavaScript) 
为 并 发 编程 提供 的 现代 化 蔡 代 方案 。 


了 2 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-38606-9。 编者 注 


如 果 对 GLL 感 兴趣 ， 请 先 阅 读 Python 文档 中 的 “Python Library and 
Extension FAQ” (“Can't we get rid of the Global Interpreter 
Lock?”, https://docs.python.org/3/faq/library.html#id18) . Guido van 
Rossum 写 的 “Tt isn't Easy to Remove the 
GIL” Chttp://www.artima.com/weblogs/viewpost.jsp?thread=214235) 和 
Jesse Noller (multiprocessing 包 的 贡献 者 ) 写 的 “Python Threads and 
the Global Interpreter Lock” Chttp://jessenoller.com/2009/02/01/python- 
threads-and-the-global-interpreter-lock/) 也 值得 一 读 。 此 外 ，David 
Beazley 在 “Understanding the Python GIL” Chttp://www.dabeaz.con/GIL/) 
中 详细 探讨 了 GIL 的 内 部 运作 。 在 这 次 演讲 的 第 54 张 幻灯 片 中 
(http://www.dabeaz.com/python/UnderstandingGIL.pdf) ，Beazley 得 出 了 
一 些 令 人 担忧 的 结果 ， 人 例如， 使 用 Python 3.2 引入 的 新 GIL 算法 做 基准 
测试 时 ， 他 发 现 处 理 时 间 增 加 了 20 倍 。 不 过 ，Beazley 似乎 使 用 一 个 空 
的 while True: pass 循环 模拟 CPU 密集 型 工作 ， 而 现实 中 不 会 这 样 
做 。 在 Beazley 提交 的 缺陷 报告 中 ， 根 据 Antoine Pitrou CXIX GIL 算 
法 的 人 ) 的 评论 Chttp://bugs.python.org/issue7946#msg223110) ， 这 个 问 
题 与 工作 负载 没有 太 大 关系 。 


了 感谢 Lucas Brunialti 把 这 个 演讲 的 链接 发 给 我 。 


GLIL 是 实际 存在 的 问题 ， 而 且 短 时 间 内 不 可 能 消失 ， 不 过 Jesse Noller 和 
Richard Oudkerk 开发 了 一 个 库 ， 能 让 CPU 密集 型 应 用 轻松 地 绕 开 这 个 
问题 一 multiprocessing 包 。 这 个 包 在 多 个 进程 中 模拟 threading 


模块 的 API， 而 且 文 持 基 础 设施 的 锁 、 队 列 、 管 道 、 共 享 内 存 ， 等 等 。 
这 个 包 由 “PEP 371—Addition of the multiprocessing package to the standard 
library” Chttps://www.python.org/dev/peps/pep-0371/) 引入 。 这 个 包 的 官 
方 文档 是 个 93KB 的 .rst 文件 〈 大 约 63 页) ， 是 Python 标准 库 文 档 中 
最 长 的 一 章 。 多 进程 是 concurrent.futures.ProcessPoolExecutor 
类 的 基础 。 


对 于 CPU 密集 型 和 数据 密集 型 并 行 处 理 ， 现 在 有 个 新 工具 可 用 一 一 分 
布 式 计算 引擎 Apache Spark Chttps://spark.apache.org/) 。Spark 在 大 数据 
领域 发 展 势头 强劲 ， 提 供 了 友好 的 Python API， 支 持 把 Python 对 象 当 作 
数据 ， 如 示例 页 面 所 示 Chttps://spark.apache.org/examples.html) 。 


Joao S. O. Bueno 开发 的 lelo Æ Chttps://pypi.python.org/pypi/lelo) 和 
Nat Pryce 开发 的 python-parallelize 库 

Chttps://github.com/npryce/python-parallelize) 简洁 且 十 分 易于 使 用 ， 它 
们 的 作用 是 使 用 多 个 进程 处 理 并 行 任务 。lelo 包 定 义 了 一 个 
@parallel 闭 饰 器 ， 可 以 应 用 到 任何 函数 上 ， 把 函数 变 成 非 阻 塞 : 调用 
被 装饰 的 函数 时 ， 函 数 在 一 个 新 进程 中 执行 。 Nat Pryce 开发 的 
python-parallelize 包 提 供 了 一 个 parallelize 生成 器 ， 能 把 for 
循环 分 配给 多 个 CPU 执行 。 这 两 个 包 在 内 部 都 使 用 了 
multiprocessing 模块 。 
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远离 线程 


并 发 是 计算 机 科学 中 最 难 的 概念 之 一 (通常 最 好 别 去 招 车 它 )。14 


David Beazley 
Python 教练 和 科学 狂人 


上 面 引 自 David Beazley 的 话 与 本 章 开 头 引 上 自 Michele Simionato 的 
话 明显 矛盾 ， 但 我 都 同意 。 在 大 学 学 过 一 门 并 发 谍 程 之 后 〈 那 门 课 
把 “并 发 编程 ”与 管理 线程 和 锁 划 上 等 号 ) ， 我 得 出 一 个 结论 ， 我 不 
该 自己 管理 线程 和 锁 ， 而 应 该 管理 内 存 分 配 和 释放 。 线 程 和 锁 最 好 
| 他 们 有 这 种 爱好 ， 也 有 时 间 去 管理 (但 
PRU) 。 


因此 我 觉得 concurrent.futures GIRE, CERE, FEMA 
列 视 作 服务 的 基础 设施 ， 不 用 自己 动手 直接 处 理 。 当 然 ， 这 个 包 针 
对 的 是 简单 的 作业 ， 也 就 是 所 谓 的 “高 度 并 行 ?问题 
Chttps://en.wikipedia.org/wiki/Embarrassingly parallel) 。 可 是 ， 正 
MAREE Simionato 所 说 的 那样 ， 编 写 应 用 (而 非 操作 系统 或 数 
据 库 服务 器 〉 时 ， 遇 到 的 大 部 分 并 肥 问 题 都 属于 这 一 种 。 


对 于 并 发 程度 不 高 的 问题 来 说 ， 线 程 和 锁 也 不 是 解决 之 道 。 在 操作 
系统 层面 ， 线 程 永远 不 会 消失 ; 不过， 过 去 七 年 我 觉得 让 人 眼前 一 
之 的 编程 语言 (包括 Go, Elixir 和 Clojure) 都 对 并 发 做 了 更 好 、 
更 高 层 的 抽象 ， 正 如 《七 周 七 并 发 模型 》 一 书 所 述 。Erlang《〈 实 现 
Elixir 的 语言 ) 是 典型 示例 ， 设 计 这 门 语 言 时 彻底 考虑 到 了 并 发 。 
我 对 这 门 语言 不 感 兴趣 的 原因 很 简单 一 一 句法 丑陋 。 我 被 Python 的 
句法 宠 十 了 。 


José Valim 是 著名 的 Ruby on Rails 核心 贡献 者 ， 他 设计 的 Elixir 提 
供 了 友好 而 现代 的 句法 。 与 Lisp 和 Clojure 一 样 ，Elixir 也 实现 了 
句法 宏 。 这 是 把 双 为 剑 。 使 用 句法 宏 能 实现 强大 的 DSL， 可 是 衍生 
HA SROKA, TASES HOLA Ae, ALK Se. KEMI 
HEEM Lisp 没落 ， 因 为 各 种 Lisp 实现 都 使 用 独特 难 懂 的 方言 。 
标准 化 的 Common Lisp 则 开始 复苏 。 我 希望 Jose Valim 能 引领 
Elixir 46, 722 HATH AW 


与 Elixir 类 似 ，Go 也 是 一 门 充满 新 意 的 现代 语言 。 可 是 ， 与 Elixir 
相 比 ， 某 些 方面 有 点 保守 。Go 不 支持 宏 ， 句 法 比 Python 简单 。Go 
也 不 支持 继承 和 运算 符 重 载 ， 而 且 提 供 的 元 编程 支持 没有 Python 
多 。 这 些 限制 被 认为 是 Go 语言 的 特点 ， 因 为 行为 和 性 能 更 可 预 
料 。 这 对 高 并 发 来 说 是 好 事 ， 而 Go 的 重要 使 命 是 取代 CH, Java 
和 Python。 


虽然 Elixir 和 Go 在 高 并 发 领域 是 直接 的 苋 争 者 ， 但 是 设计 原理 的 
不 同 则 吸引 了 不 同 的 用 户 群 。 这 两 门 语言 都 可 能 途 劲 发 展 。 可 是 纵 
观 编程 语言 的 历史 ， 保 守 的 语言 更 能 吸引 程序 员 。 我 希望 自己 能 精 
通 Go 和 Elixir。 

关于 GIL 


GIL 简化 了 CPython 解释 器 和 C 语言 扩展 的 实现 。 得 益 于 GIL, 


Python 有 很 多 C 语言 扩展 一 一 这 绝对 是 如 今 Python 如 此 受 欢 迎 的 主 
要 原因 之 一 。 


多 年 以 来 ， 我 一 直觉 得 GIL 导致 Python 线程 几乎 没有 用 武之 地 ， 只 
能 开 及 一 些 玩 具 应 用 。 下 到 发 现 标 准 库 中 每 一 个 阻塞 型 VO 函数 都 
会 释放 GIL 之 后 ， 我 才 意识 到 Python 线程 特别 适合 在 IO 密集 型 系 
a CET RIN LFAYm, BPA BERIT RIAA PE 
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MRI (推荐 使 用 的 Ruby 实现 ) 也 有 GIL, Alt, Ruby 线程 与 
Python 线程 受到 同样 的 限制 。 相 比 之 下 ，JavaScript 解释 器 则 根本 
不 支持 用 户 层级 的 线程 。 在 JavaScript 中 ， 只 能 通过 回调 式 异 步 编 
程 实现 并 发 。 我 提 到 这 些 是 因为 ，Ruby 和 JavaScript 是 最 能 直接 与 
Python 苋 争 的 通用 动态 编程 语言 。 


在 深 说 并 发 的 这 一 批 新 语言 中 ，Go 和 Elixir 或 许 是 最 能 蚕食 Python 
的 语言 。 不 过 ， 现 在 有 asyncio 了。 既然 这 么 多 人 相信 纯粹 使 用 
回调 的 Node.js 平台 可 以 做 并 发 编程 ， 那 么 asyncio 生态 系统 成 就 
Ja, Python 赢 回 这 些 人 能 有 多 难 呢 ? 不过， 这 是 下 一 章 “ 杂 谈 ” 的 话 
题 。 


1 摘自 PyCon 2009 教程 “A Curious Course on Coroutines and 
Concurrency” (http//www.dabeaz.com/coroutines/) 的 第 9 张 幻灯 片 。 


第 18 章 使 用 asyncio 包 处 理 并 
并 发 是 指 一 次 处 理 多 件 事 。 
并 行 是 指 一 次 做 多 件 事 。 
二 者 不 同 ， 但 是 有 联系 。 


一 个 关于 结构 ， 一 个 关于 执行 。 
并 发 用 于 制定 方案 ， 用 来 解决 可 能 《〈 但 未 必 ) 并 行 的 问题 。! 


Rob Pike 
Go 语言 的 创造 者 之 一 


1 摘自 “Concurrency Is Not Parallelism (It's 
Better)” (http://concur.rspace. googlecode.conv/hg/talk/concur.htmlslide-5) 演讲 的 第 5 张 幻 灯 片 。 


Imre Simon 教授 ? 说 过 ， 科 学 界 有 两 个 重要 过 错 : 使 用 不 同 的 词 表示 相 
同 的 事物 ， 以 及 使 用 同一 个 词 表示 不 同 的 事物 。 如 果 你 研究 过 并 发 编程 
或 并 行 编程 ， 会 发 现 “ 并 发 "和 “并 行 * 有 不 同 的 定义 。 我 将 采用 上 述 引 文 
中 Rob Pike 的 非 正 式 定义 。 


"Imre Simon (1943—2009) 是 巴西 的 计算 机 科学 先驱 ， 对 自动 机 理论 (Automata Theory) 有 杰 
出 的 贡献 ， 开 创 了 热带 数学 (Tropical Mathematics) 这 一 领域 。 他 还 是 自由 软件 和 自由 文化 的 
拥护 者 。 我 有 幸 曾 与 他 一 起 学 习 、 工 作 和 相处 。 


真正 的 并 行 需要 多 个 核心 。 现 代 的 笔记 本 电脑 有 4 个 CPU 核心 ， 但 是 
通常 不 经 意 间 就 有 超过 100 个 进程 同时 运行 。 因此， 实际 上 大 多 数 过 程 
都 是 并 发 处 理 的 ， 而 不 是 并 行 处 理 。 计 算 机 始终 运行 着 100 多 个 进程 ， 
确保 每 个 进程 都 有 机 会 取得 进展 ， 不 过 CPU 本 喘 同 时 做 的 事情 不 能 超 
过 四 件 。 十 年 前 使 用 的 设备 也 能 并 发 处 理 100 个 进程 ， 不 过 都 在 同一 个 
核心 里 。 鉴 于 此 ，Rob Pike 才 把 那 次 演讲 取 名 为 “Concurrency Is Not 
Parallelism (It's Better)”[“ 并 发 不 是 并 行 〈 并 发 更 好 ) ”]。 


本 章 介绍 asyncio 包 ， 这 个 包 使 用 事件 循环 驱动 的 协 程 实现 并 发 。 这 
是 Python 中 最 大 也 是 最 具 雄 心 壮志 的 库 之 一 。Guido van Rossum 在 


Python e asyncio 包 ， 把 这 个 项 目的 代号 命名 
为 “Tulip” CHI ste 因此 ， 在 网 上 搜索 这 方面 的 资料 时 ， 会 经 常 看 到 
这 种 花 的 名 称 。 例 这 个 项 目的 主要 讨论 组 仍 叫 python- 
tulip (https: a google.com/forum/#!forum/python-tulip) 。 


Python 3.4 把 Tulip 添加 到 标准 库 中 时 ， 把 它 重 命名 为 asyncio。 这 个 包 
也 兼容 Python 3.3， 在 PyPI 中 可 以 通过 新 的 官方 名 称 找到 


(https://pypi.python.org/pypi/asyncio) 。asyncio 大 量 使 用 yield from 
表达 式 ， 因 此 与 Python 旧版 不 兼容 。 


本 Trollius 项 目 ( 也 以 花 名 命名 ，http://trollius.readthedocs.org/) 
移植 了 asyncio， 把 yield from BH yield 和 精巧 的 回调 

(From 和 Return) ， 以 便 支 持 Python 2.6 及 以 上 版 本 。yield 
from ... 表达 式 变 成 了 yield From(...); 如 果 协 程 需要 返回 结 
果 ， 那 么 要 把 return result 替换 成 raise Return(result). 
Trollius 由 Victor Stinner 主导 ， 他 也 是 asyncio 包 的 核心 开发 者 。 
Victor 人 很 好 ， 在 本 书 付 梓 之 前 同意 审核 本 章 。 


本 章 讨论 以 下 话题 : 


。 对比 一 个 简单 的 多 线程 程序 和 对 应 的 asyncio 版 ， 说 明 多 线程 和 
异步 任务 之 间 的 关系 


asyncio.Future 类 与 concurrent .futures.Future 类 之 间 的 区 
il] 


。 第 17 章 中 下 载 国旗 那些 示例 的 异步 版 

据 弃 线程 或 进程 ， 如 何 使 用 异步 编程 管理 网 络 应 用 中 的 高 并 发 

在 异步 编程 中 ， 与 回调 相 比 ， 协 程 显 著 提 升 性 能 的 方式 

如 何 把 阻塞 的 操作 交 给 线程 池 处 理 ， 从 而 避免 阻塞 事件 循环 

。 使 用 asyncio 编写 服务 器 ， 重 新 审视 Web 应 用 对 高 并 发 的 处 理 方 


工 


e 为 什么 asyncio 已 经 准备 好 对 Python 生态 系统 产生 重大 影响 


首先 ， 本 章 通过 简单 的 示例 来 对 比 threading 模块 和 asyncio 包 。 


18.1 线程 与 协 程 对 比 


有 一 次 讨论 线程 和 GIL 时 ，Michele Simionato 发 布 了 一 个 简单 但 有 趣 的 
示例 Chttps://mail.python.org/pipermail/python-list/2009- 
February/525280.html) : 在 长 时 间 计 算 的 过 程 中 ， 使 用 
multiprocessing 包 在 控制 台中 显示 一 个 由 ASCI 字符 "|/-\" 构成 
的 动画 旋转 指针 。 


我 改写 了 Simionato 的 示例 ， 一 个 借 由 threading 模块 使 用 线程 实现 ， 
一 个 借 由 asyncio 包 使 用 协 程 实现 。 我 这 么 做 是 为 了 让 你 对 比 两 种 实 
现 ， 理 解 如 何不 使 用 线程 来 实现 并 发 行为 。 


示例 18-1 和 示例 18-2 的 输出 是 动态 的 ， 因 此 你 一 定 要 运行 这 两 个 脚 
本 ， 看 看 结果 如 何 。 如 果 你 在 坐 地 铁 〈 或 者 在 某 个 没有 Wi-Fi 连接 的 地 
方 ) ， 可 以 看 图 18-1， 想 象 单词 “thinking”* 之 前 的 \ 线 是 旋转 的 。 


图 18-1: spinner thread.py 和 spinner_asyncio.py 两 个 脚本 的 输出 类 
Wh: 旋转 指针 对 象 的 字符 串 表 示 形 式 和 文本 “Answer: 42”。 在 这 个 截 
图 中 ，spinner_asyncio.py 脚本 仍 在 运行 中 ， 旋 转 指针 显示 的 是 性 
thinking!” 消 息 ， 脚 本 运行 结束 后 ， 那 一 行 会 蔡 换 成 “Answer: 42” 


首先 ， 分 析 spinner thread.py 脚本 《〈 见 示例 18-1) 。 


示例 18-1 spinner thread.py: 通过 线程 以 动画 形式 显示 文本 式 旋 
转 指 针 


import threading 
import itertools 
import time 
import sys 


class Signal: © 
go = True 


def spin(msg, signal): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): © 


status = char + ' ' + msg 
write(status) 
flush() 


write('\x@8' * len(status)) @ 
time.sleep(.1) 
if not signal.go: © 
break 
write(' ' * len(status) + '\x@8' * len(status)) © 


def slow_function(): @ 
# 假装 等 待 T/0 一 段 时 间 
time.sleep(3) © 
return 42 


def supervisor(): © 
signal = Signal() 
spinner = threading. Thread(target=spin, 
args=('thinking!', signal) ) 
print('spinner object:', spinner) 四 
spinner.start() © 
result = slow_function() ©@ 
signal.go = False © 
spinner.join() @ 
return result 


def main(): 
result = supervisor() © 
print('Answer:', result) 


main() 


(ao ee 其 中 有 个 go 属性 ， 用 于 从 外 部 控 
I 线程 。 


O 这 个 函数 会 在 单独 的 线程 中 运行 。signal 参数 是 前 面 定 义 的 
Signal 类 的 实例 。 


O 这 其 实 是 个 无 限 循 环 ， 因 为 itertools.cycle 函数 会 从 指定 的 序列 
中 反复 不 断 地 生成 元 素 。 


Se nee 所在; BEART (\xe8) 把 光标 移 回 


O 如 果 go 属性 的 值 不 是 True 了 ， 那 就 退出 循环 。 
O 使 用 空格 清除 状态 消息 ， 把 光标 移 回 开头 。 
O 假设 这 是 耗 时 的 计算 。 


O 调用 sleep 函数 会 阻塞 主线 程 ， 不 过 一 定 要 这 么 做 ， 以 便 释 放 
GILL， 创 建 从 属 线程 。 


O 这 个 函数 设置 从 属 线程 ， 显 示 线 程 对 象 ， 运 行 耗 时 的 计算 ， 最 后 杀 
死 线程 。 


O 显示 从 属 线程 对 象 。 输 出 类 似 于 <Thread(Thread-1， 


initial)>. 
OD 启动 从 属 线程 。 


Ð 运行 slow function 函数 ， 阻 塞 主 线程 。 同 时 ， 从 属 线程 以 动画 形 
式 显示 旋转 指针 。 


@ 改变 signal 的 状态 ， 这 会 终止 spin 函数 中 的 那个 for 循环 。 


D 等 待 spinner 线程 结束 。 


@® 3247 supervisor 函数 。 


JER, Python 没有 提供 终止 线程 的 API， 这 是 有 意 为 之 的 。 若 想 关 闭 线 
程 ， 必 须 给 线程 发 送 消息 。 这 里 ， 我 使 用 的 是 signal.go Jatt: 在 主 
线程 中 把 它 设 为 False 后 ，spinner 线程 最 终 会 注意 到 ， 然 后 干净 地 
退出 。 


VE @asyncio.coroutine 装饰 器 替代 线程 ， 实 现 相同 
VT Alo 


和 第 16 章 的 小 结 说 过 ，asyncio 包 使 用 的 “ 协 程 ”是 较 严 格 的 定 
义 。 适 合 asyncio API 的 协 程 在 定义 体 中 必须 使 用 yield from, 
而 不 能 使 用 yield。 此 外 ， 适 合 asyncio 的 协 程 要 由 调用 方 驱 

动 ， 并 由 调用 方 通过 yield from 调用 ; 或 者 把 协 程 传 给 asyncio 
包 中 的 某 个 函数 ， 例 如 asyncio.async(...) 和 本 章 要 介绍 的 其 
他 函数 ， 从 而 驱动 协 程 。 最 后 ，@asyncio.coroutine 装饰 器 应 该 
应 用 在 协 程 上 ， 如 下 述 示例 所 示 。 


我 们 来 分 析 示 例 18-2。 


示例 18-2 spinner_asyncio.py: 通过 协 程 以 动画 形式 显示 文本 式 旋 
转 指 针 


import asyncio 
import itertools 
import sys 


@asyncio.coroutine @ 

def spin(msg): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): 


status = char + ' ' + msg 
write(status) 

flush() 

write('\x@8' * len(status) ) 
try: 


yield from asyncio.sleep(.1) © 
except asyncio.CancelledError: @ 
break 


write(' ' * len(status) + '\x@8' * len(status)) 


@asyncio.coroutine 

def slow_function(): © 
# 假装 等 待 I/0 一 段 时 间 
yield from asyncio.sleep(3) © 
return 42 


@asyncio.coroutine 

def supervisor(): @ 
spinner = asyncio.async(spin('thinking!')) © 
print('spinner object:', spinner) © 
result = yield from slow _function() 四 
spinner.cancel() @ 
return result 


def main(): 
loop = asyncio.get_event_loop() @ 
result = loop.run_until_complete(supervisor()) © 
loop.close() 
print('Answer:', result) 


@ 打算 交 给 asyncio 处 理 的 协 程 要 使 用 @asyncio. coroutine 装饰 。 
这 不 是 强制 要 求 ， 但 是 强烈 建议 这 么 做 。 原 因 在 本 列表 后 面 。 


O 这 里 不 需要 示例 18-1 中 spin 函数 中 用 来 关闭 线程 的 signal 参数 。 


© 使 用 yield from asyncio.sleep(.1) 代替 time.sleep(.1)， 这 
样 的 休眠 不 会 阻塞 事件 循环 。 


O 如果 spin 函数 苏醒 后 抛 出 asyncio.CancelledError 异常 ， 其 原 
因 是 发 出 了 取消 请 求 ， 因 此 退出 循环 。 


@ 现在，slow _ function 函数 是 协 程 ， 在 用 休眠 假装 进行 IO 操作 
时 ， 使 用 yield from 继续 执行 事件 循环 。 


@ yield from asyncio.sleep(3) 表达 式 把 控制 权 交 给 主 循环 ， 在 
休眠 结束 后 恢复 这 个 协 程 。 


O SIZE, supervisor 函数 也 是 协 程 ， 因 此 可 以 使 用 yield from 驱动 
slow_function 函数 。 


Q asyncio.async(...) 函数 排 定 spin 协 程 的 运行 时 间 ， 使 用 一 个 
Task 对 象 包装 spin 协 程 ， 并 立即 返回 。 


© 显示 Task 对象 。 输 出 类 似 于 <Task pending coro=<spin() 
running at spinner_ asyncio.py:12>>. 


@ 驱动 slow_function() 函数 。 结 束 后 ， 获 取 返 回 值 。 同 时 ， 事 件 循 
环 继续 运行 ， 因 为 slow_function 函数 最 后 使 用 yield from 
asyncio.sleep(3) 表达 式 把 控制 权 交 回 给 了 主 循环 。 


O Task 对 象 可 以 取消 ;取消 后 会 在 协 程 当前 暂停 的 yield 处 抛 出 
asyncio.CancelledError 异常 。 协 程 可 以 捕获 这 个 异常 ， 也 可 以 延 
述 取 消 ， 甚 至 拒绝 取消 。 

O 获取 事件 循环 的 引用 。 


Ð 驱动 supervisor 协 程 ， 让 它 运 行 完毕 ， 这 个 协 程 的 返回 值 是 这 次 
调用 的 返回 值 。 


Ben BRIAR AGRA EE ZEEE, ATR 2G SEE EA BC SO, RUAN 
要 在 asyncio 协 程 中 使 用 time.sleep(...)。 如 果 协 程 需要 在 一 
段 时 间 内 什么 也 不 做 ， 应 该 使 用 yield from 
asyncio.sleep(DELAY). 


使 用 @asyncio. coroutine 装饰 器 不 是 强制 要 求 ， 但 是 强烈 建议 这 么 
做 ， 因 为 这 样 能 在 一 众 普通 的 函数 中 把 协 程 凸显 出 来 ， 也 有 助 于 调试 : 
如 果 还 没 从 中 产 出 值 ， 协 程 就 被 垃圾 回收 了 (意味 着 有 操作 未 完成 ， 
此 有 可 能 是 个 缺陷 ) ， 那 就 可 以 发 出 警告 。 这 个 装饰 器 不 会 预 激 协 程 。 


注意 ，spinner thread.py 和 spinner_asyncio.py 两 个 脚本 的 代码 行 数 差 不 
Z. supervisor 函数 是 这 两 个 示例 的 核心 。 下 面 详 细 对 比 二 者 。 示 例 


18-3 只 列 出 了 线程 版 示例 中 的 supervisor 函数 。 


示例 18-3 spinner thread.py: 线程 版 supervisor 函数 


def supervisor(): 
signal = Signal() 
spinner = threading. Thread(target=spin, 
args=('thinking!', signal) ) 
print('spinner object:', spinner) 


spinner.start() 

result = slow_function() 
signal.go = False 
spinner. join() 

return result 


为 了 对 比 ， 示 例 18-4 7HE supervisor 协 程 。 
示例 18-4 spinner asyncio.py: 异步 版 supervisor HFE 


@asyncio.coroutine 

def supervisor(): 
spinner = asyncio.async(spin( ‘thinking! ')) 
print('spinner object:', spinner) 


result = yield from slow _function() 
spinner.cancel() 
return result 


这 两 种 supervisor 实现 之 间 的 主要 区 别 概述 如 下 。 


e asyncio. Task 对 象 差不多 与 threading.Thread 对 象 等 效 。 
Victor Stinner 本章 的 特约 技术 审 校 ) FR, “Task 对 象 像 是 实现 
协作 式 多 任务 的 库 〈 例 如 gevent) 中 的 绿色 线程 (green 
thread) ”。 


e Task 对 象 用 于 驱动 协 程 ，Thread 对 象 用 于 调用 可 调用 的 对 象 。 


e Task 对 象 不 由 上 自己 动手 实例 化 ， 而 是 通过 把 协 程 传 给 
asyncio.async(...) 函数 或 loop.create_task(...) 方法 获 
取 。 


获取 的 Task 对 象 已 经 排 定 了 运行 时 间 ( 例 如， 由 asyncio.async 
函数 排 定 ) ; Thread 实例 则 必须 调用 start 方法 ， 明 确 告知 让 它 


运行 5 


在 线程 版 supervisor MACH, slow function 函数 是 普通 的 函 
数 ， 直 接 由 线程 调用 。 在 异步 版 supervisor 函数 
中 ，slow_function 函数 是 协 程 ， 由 yield from 驱动 。 


没有 API 能 从 外 部 终止 线程 ， 因 为 线程 随时 可 能 被 中 断 ， 导 致 系统 
处 于 无 效 状态 。 如 果 想 终止 任务 ， 可 以 使 用 Task.cancel() 实例 
方法 ， 在 协 程 内 部 抛 出 CancelledError 异常 。 协 程 可 以 在 暂停 的 
yield 处 捕获 这 个 异常 ， 处 理 终 止 请 求 。 


supervisor 协 程 必须 在 main 函数 中 由 
loop.run_until_complete 方法 执行 。 


上 述 比 较 应 该 能 帮助 你 理解 ， 与 更 熟悉 的 threading 模型 相 
比 ，asyncio 是 如 何 编排 并 发 作业 的 。 


线程 与 协 程 之 间 的 比较 还 有 最 后 一 点 要 说 明 : 如 果 使 用 线程 做 过 重要 的 
顷 程 ， 你 就 知道 写 出 程序 有 多 么 困难 ， 因 为 调度 程序 任何 时 候 都 能 中 断 
线程 。 必 须 记 住 保 留 锁 ， 去 保护 程序 中 的 重要 部 分 ， 防 止 多 步 操作 在 执 
行 的 过 程 中 中 断 ， 防 止 数据 处 于 无 效 状态 。 


而 协 程 默认 会 做 好 全 方位 保护 ， 以 防止 中 断 。 我 们 必须 显 式 产 出 才能 让 
程序 的 余下 部 分 运行 。 对 协 程 来 说 ， 无 需 保 留 锁 ， 在 多 个 线程 之 间 同 步 
操作 ， 协 程 自身 就 会 同步 ， 因 为 在 任意 时 刻 只 有 一 个 协 程 运行 。 想 交 出 
控制 权时 ， 可 以 使 用 yield 3 yield from 把 控制 权 交 还 调度 程序 。 
这 就 是 能 够 安全 地 取消 协 程 的 原因 : 按照 定义 ， 协 程 只 能 在 暂停 的 
yield 处 取消 ， 因 此 可 以 处 理 CancelledError 异常 ， 执 行 清理 操作 。 


下 面 说 明 asyncio.Future 类 与 第 17 章 所 用 的 


concurrent .futures.Future 类 之 间 的 区 别 。 


18.1.1 asyncio.Future: 故意 不 阻塞 


asyncio. Future 类 与 concurrent. futures. Future 类 的 接口 基本 一 


致 ， 不 过 实现 方式 不 同 ， 不 可 以 互 换 。“PEP 3156—Asynchronous IO 
Support Rebooted: 

the‘asyncio’Module” (https://www.python.org/dev/peps/pep-3156/) 对 这 个 
不 幸 状 况 是 这 样 说 的 : 


未 来 可 能 会 统一 asyncio.Future 和 
concurrent.futures.Future 类 实现 的 期 物 ( 例 如， 为 后 者 添加 
FEA yield from 的 ”iter Wyk) 。 


如 17.1.3 节 所 述 ， 期 物 只 是 调度 执行 某 物 的 结果 。 在 asyncio 包 

中 ，BaseEventLoop.create _ task(...) 方法 接收 一 个 协 程 ， 排 定 它 
的 运行 时 间 ， 然 后 返回 一 个 asyncio.Task 实例 一 一 也 是 
asyncio.Future 类 的 实例 ， 因 为 Task 是 Future 的 子 类 ， 用 于 包装 
协 程 。 这 与 调用 Executor.submit(...) 方法 创建 
concurrent.futures.Future 实例 是 一 个 道理 。 


与 concurrent .futures.Future 类 似 ，asyncio.Future 类 也 提供 了 
.done()、.add_ done_callback(...) 和 .result() 等 方法 。 前 两 个 
方法 的 用 法 与 17.1.3 节 所 述 的 一 样 ， 不 过 .result() 方法 差别 很 大 。 


asyncio.Future 类 的 .result() 方法 没有 参数 ， 因 此 不 能 指定 超时 
时 间 。 此 外 ， 如 果 调 用 .result() 方法 时 期 物 还 没 运行 完毕 ， 那 么 
.result() 方法 不 会 阻塞 去 等 待 结果 ， 而 是 抛 出 


asyncio. InvalidStateError 异常 。 


然而 ， 获 取 asyncio. Future 对 象 的 结果 通常 使 用 yield from, MH 
产 出 结果 ， 如 示例 18-8 所 示 。 


使 用 yield from 处 理 期 物 ， 等 待 期 物 运行 完毕 这 一 步 无 需 我 们 关心 ， 
而 且 不 会 阻塞 事件 循环 ， 因 为 在 asyncio 包 中 ，yield from 的 作用 是 
把 控制 权 还 给 事件 循环 。 


注意 ， 使 用 yield from 处 理 期 物 与 使 用 add_done_callback 方法 处 
理 协 程 的 作用 一 样 : 延迟 的 操作 结束 后 ， 事 件 循 环 不 会 触发 回调 对 象 ， 

而 是 设置 期 物 的 返回 值 ， 而 yield from 表达 式 则 在 暂停 的 协 程 中 生成 
返回 值 ， 恢 复 执 行 协 程 。 


总 之 ， 因 为 asyncio. Future 类 的 目的 是 与 yield from 一 起 使 用 ， 所 
以 通常 不 需要 使 用 以 下 方法 。 


。 无 需 调 用 my_future.add done _callback(...)， 因 为 可 以 直接 
把 想 在 期 物 运行 站 束 后 执行 的 操作 放 在 协 程 中 yield from 
my future 表达 式 的 后 面 。 这 是 协 程 的 一 大 优势 : 协 程 是 可 以 暂停 
和 恢复 的 函数 。 


。 无 需 调 用 my_future.result()， 因 为 yield from 从 期 物 中产 出 
的 值 就 是 结果 (例如 ，result = yield from my future) 。 


当然 ， 有 时 也 需要 使 用 .done()、.add_done_callback(...) 和 
.result() 方法 。 但 是 一 般 情 况 下 ，asyncio.Future WAH yield 
From 驱动 ， 而 不 是 靠 调 用 这 些 方 法 驱动 。 


下 面 分 析 yield from 和 asyncio 包 的 API 如 何 拉 近 期 物 、 任 务 和 协 
程 的 关系 。 


18.1.2 ”从 期 物 、 任 务 和 协 程 中 产 出 


在 asyncio 包 中 ， 期 物 和 协 程 关系 紧密 ， 因 为 可 以 使 用 yield from 
从 asyncio.Future X} g% Pr HE? # 杂 。 ees 如 果 Foo 
数 《〈 调 用 后 返回 协 程 对 象 ) ， 抑 或 是 返回 Future BK Task 实例 的 普 
函数 ， 那 么 可 以 这 样 写 : res = yield from foo()。 这 是 aie 
包 的 API 中 很 多 地 方 可 以 互 换 协 程 与 期 物 的 原因 之 一 。 


为 了 执行 这 些 操作 ， 必 须 排 定 协 程 的 运行 时 间 ， 然 后 使 用 
.Task 对 象 包装 协 程 。 对 协 程 来 说 ， 获 取 Task 对 象 有 两 种 主 
HN x 


asyncio.async(coro_or_future, *, loop=None) 


这 个 函数 统一 了 协 程 和 期 物 ， 第 一 个 参数 可 以 是 二 者 中 的 任何 一 
个 。 如 果 是 Future 或 Task 对 象 ， 那 就 原封 不 动 地 返回 。 如 有 果 是 协 
程 那么 async 函数 会 调用 loop.create_task(...) 方法 创建 Task 
WR. loop= 关键 字 参 数 是 可 选 的 ， 用 于 传 入 事件 循环 ; 如 果 没 有 传 
A, BA async 函数 会 通过 调用 asyncio.get_event_loop() 函数 获 


取 循 环 对 象 。 
BaseEventLoop.create_task(coro) 


这 个 方法 排 定 协 程 的 执行 时 间 ， 返 回 一 个 asyncio.Task 对 象 。 如 
果 在 自 定义 的 BaseEventLoop 子 类 上 调用 ， 返 回 的 对 象 可 能 是 外 部 库 
(如 Tornado) 中 与 Task 类 兼容 的 某 个 类 的 实例 。 


BaseEventLoop.create task(...) 方法 只 在 Python 3.4.2 
及 以 上 版 本 中 可 用 。 如 果 是 Python 3.3 或 Python 3.4 的 旧版 ， 要 使 
用 asyncio.async(...) KZG WAMA PyPI 中 安装 较 新 的 
asyncio 版 本 (https://pypi.python.org/pypi/asyncio) o 


asyncio 包 中 有 多 个 函数 会 自动 〈 内 部 使 用 的 是 asyncio.async P% 
数 ) 把 参数 指定 的 协 程 包 装 在 asyncio.Task 对 象 中 ， 例 如 
BaseEventLoop.run_until_complete(...) 方法 。 


如 果 想 在 Python 控制 台 或 者 小 型 测试 脚本 中 试验 期 物 和 协 程 ， 可 以 使 用 
下 述 代 码 片 段 : 3 


3 摘自 Petr Viktorin 于 2014 年 9 H 11 日 在 Python-ideas 邮件 列表 中 发 布 的 消息 
(https://mail.python.org/pipermail/python-ideas/2014-September/029294.html)。 


>>> import asyncio 
>>> def run_sync(coro_or_future): 
loop = asyncio.get_event_loop() 
return loop.run_until_complete(coro_or_future) 


>>> a = run_sync(some_coroutine()) 


在 asyncio 包 的 文档 中 ，“18.5.3. Tasks and coroutines”— “i 
(https://docs.python.org/3/library/asyncio-task.html) 说 明了 协 程 、 期 物 和 
任务 之 间 的 关系 。 其 中 有 个 注解 说 道 : 


这 份 文档 把 一 些 方法 说 成 是 协 程 ， 即 使 它们 其 实 是 返回 Future 对 
象 的 普通 Python 函数 。 这 是 故意 的 ， 为 的 是 给 以 后 修改 这 些 函 数 的 
实现 留 下 余地 。 


掌握 这 些 基础 知识 后 ， 接 下 来 要 分 析 异 步 下 载 国旗 的 flags asyncio.py 脚 
a T 17-1 (17 $) 中 与 依 序 下 载 版 和 线程 池 
示 过 


18.2 ”使 用 asyncio 和 aiohttp 包 下 载 


从 Python 3.4 起 ，asyncio 包 只 直接 支持 TCP 和 UDP。 如 果 想 使 用 
HTTP 或 其 他 协议 ， 那 么 要 借助 第 三 方 包 。 当 下 ， 使 用 asyncio 实现 
HTTP 客户 端 和 服务 喜 时 ， 使 用 的 似乎 都 是 aiohttp 包 。 


示例 18-5 是 下 载 国旗 的 flags asyncio.py 脚本 的 完整 代码 清单 。 运 作 方 
式 简 述 如 下 。 


(1) 首先 ， 在 download_many 函数 中 获取 一 个 事件 循环 ， 处 理 调用 
download_one 函数 生成 的 几 个 协 程 对 象 。 


(2) asyncio 事件 循环 依次 激活 各 个 协 程 。 


(3) 客户 代码 中 的 协 程 (如 get_flag) 使 用 yield from 把 职责 委托 给 
库 里 的 协 程 (如 aiohttp.request) 时 ， 控 制 权 交还 事件 循环 ， 执 行 
之 前 排 定 的 协 程 。 


(4) 事件 循环 通过 基于 回调 的 低层 API， 在 阻塞 的 操作 执行 完毕 后 获得 
通知 。 


(5) 获得 通知 后 ， 主 循环 把 结果 发 给 暂停 的 协 程 。 


(6) 协 程 向 前 执行 到 下 一 个 yield from 表达 式 ， 例 如 get_flag 函数 
中 的 yield from resp.read()。 事 件 循 环 再 次 得 到 控制 权 ， 重 复 第 
4~6 步 ， 直 到 事件 循环 终止 。 


这 与 16.9.2 节 所 见 的 示例 类 似 。 在 那个 示例 中 ， 主 循环 依次 启动 多 个 出 
租车 进程 ;各 个 出 租车 进程 产 出 结果 后 ， 主 循环 调度 各 个 出 租车 的 下 一 
个 事件 (未 来 发 生 的 事 ) ， 然 后 激活 队列 中 的 下 一 个 出 租车 进程 。 那 个 
出 租车 仿真 简单 得 多 ， 主 循环 易于 理解 。 不 过 ， 在 asyncio 中 ， 基 本 
的 流程 是 一 样 的 : 在 一 个 单线 程 程序 中 使 用 主 循环 依次 激活 队列 里 的 协 
程 。 各 个 协 程 向 前 执行 几 步 ， 然 后 把 控制 权 让 给 主 循环 ， 主 循环 再 激活 
队列 里 的 下 一 个 协 程 。 


下 面 详细 分 析 示 例 18-5. 


示例 18-5 flags_asyncio.py: 使 用 asyncio 和 aiohttp 包 实 现 的 
异步 下 载 脚本 


import asyncio 


import aiohttp © 


from flags import BASE URL, save flag, show, main @ 


@asyncio.coroutine © 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) @ 
image = yield from resp.read() © 
return image 


@asyncio.coroutine 

def download_one(cc): © 
image = yield from get_flag(cc) @ 
show(cc) 
save_flag(image, cc.lower() + '.gif') 
return cc 


download_many(cc_list): 

loop = asyncio.get_event_loop() © 

to_do = [download_one(cc) for cc in sorted(cc_list)] © 
wait_coro = asyncio.wait(to_do) 四 

res, _ = loop.run_until_complete(wait_coro) @ 
loop.close() @ 


return len(res) 


if name == ' main_': 
main(download_many) 


@ 必须 安装 aiohttp 包 ， 它 不 在 标准 库 中 。4 


4 可 以 使 用 pip install aiohttp 命令 安装 aiohttp 包 。 编者 注 


@ EH flags 模块 《 见 示例 17-2) 中 的 一 些 函 数 。 


© 协 程 应 该 使 用 @asyncio. coroutine 装饰 。 


O 阻塞 的 操作 通过 协 程 实现 ， 客 户 代码 通过 yield from 把 职责 委托 
给 协 程 ， 以 便 异 步 运 行 协 程 。 


O 读 取 响应 内 容 是 一 项 单独 的 异步 操作 。 
@ download_one 函数 也 必须 是 协 程 ， 因 为 用 到 了 yield from. 


@ 与 依 序 下 载 版 download_one 函数 唯一 的 区 别 是 这 一 行 中 的 yield 
from; 函数 定义 体 中 的 其 他 代码 与 之 前 完全 一 样 。 


O 获取 事件 循环 底层 实现 的 引用 。 


© 调用 download_one 函数 获取 各 个 国旗 ， 然 后 构建 一 个 生成 器 对 象 
列表 。 


O 虽然 函数 的 名 称 是 wait， 但 它 不 是 阻塞 型 函数 。wait 是 一 个 协 程 ， 
等 传 给 它 的 所 有 协 程 运行 完毕 后 结束 (这 是 wait 函数 的 默认 行为 ， 参 
见 这 个 示例 后 面 的 说 明 ) 。 

D 执行 事件 循环 ， 直 到 wait_coro 运行 结束 ; 事件 循环 运行 的 过 程 
中 ， 这 个 脚本 会 在 这 里 阻塞 。 我 们 忽略 run_until_complete 方法 返 
回 的 第 二 个 元 素 。 下 文 说 明 原 因 。 


@ 关 闭 事件 循环 。 


` WRF ce EP OC Bae, ERAT EH 
With 块 确保 循环 会 被 关闭。 然而 ， 实 际 情况 是 复杂 的 ， 客 户 代码 
绝 不 会 直接 创建 事件 循环 ， 而 是 调用 
asyncio.get_event_loop() 函数 ， 获 取 事 件 循 环 的 引用 。 而 且 
有 时 我 们 的 代码 不 “拥有 ”事件 循环 ， 因 此 关闭 事件 循环 会 出 错 。 例 
如 ， 使 用 Quamash Chttps://pypi.python.org/pypi/Quamash/) 这 种 包 实 
现 的 外 部 GUI 事件 循环 时 ，Qt 库 负 责 在 退出 应 用 时 关闭 事件 循 


环 。 


asyncio.wait(...) 协 程 的 参数 是 一 个 由 期 物 或 协 程 构成 的 可 迭代 对 
R; wait 会 分 别 把 各 个 协 程 包 闭 进 一 个 Task 对 象 。 最 终 的 结果 

Fe, wait 处 理 的 所 有 对 象 都 通过 某 种 方式 变 成 Future 类 的 实 

fil, wait 是 协 程 函数 ， 因 此 返回 的 是 一 个 协 程 或 生成 器 对 

RR; wait_coro 变量 中 存储 的 正 是 这 种 对 象 。 为 了 驱动 协 程 ， 我 们 把 协 
程 传 给 loop.run_until_complete(...) 方法 。 


loop.run_until_complete 方法 的 参数 是 一 个 期 物 或 协 程 。 如 果 是 协 
f=, run_until_complete 方法 与 wait 函数 一 样 ， 把 协 程 包装 进 一 个 
Task 对 象 中 。 协 程 、 期 物 和 任务 都 能 由 yield from 驱动 ， 这 正 是 
run_until_complete 方法 对 wait 函数 返回 的 wait_coro 对 象 所 做 
的 事 。wait_coro 运行 结束 后 返回 一 个 元 组 ， 第 一 个 元 素 是 一 系列 结束 
的 期 物 ， 第 二 个 元 素 是 一 系列 未 结束 的 期 物 。 在 示例 18-5 中 ， 第 二 个 
元 素 始终 为 空 ， 因 此 我 们 把 它 赋值 给 _“， 将 其 忽略 。 但 是 wait 函数 有 
两 个 关键 字 参 数 ， 如 果 设 定 了 可 能 会 返回 未 结束 的 期 物 ; 这 两 个 参数 是 
timeout 和 return_when。 详 情 参 见 asyncio.wait 函数 的 文档 
Chttps://docs.python.org/3/library/asyncio-task.html#asyncio.wait) 。 


注意 ， 在 示例 18-5 中 不 能 重用 flags.py 脚本 ( 见 示例 17-2) 中 的 
get_flag 函数 ， 因 为 那个 函数 用 到 了 requests 库 ， 执 行 的 是 阻塞 型 
VO 操作 。 为 了 使 用 asyncio 包 ， 我 们 必须 把 每 个 访问 网 络 的 函数 改 成 
异步 版 ， 使 用 yield from 处 理 网 络 操作 ， 这 样 才 能 把 控制 权 交 还 给 事 
get_flag MAHA yield from， 意 味 着 它 必须 像 协 程 
那样 驱动 。 


因此 ， 不 能 重用 flags threadpool.py 脚本 〔( 见 示例 17-3) 中 的 
download_one 函数 。 示 例 18-5 中 的 代码 使 用 yield from 驱动 
get_flag 函数 ， 因 此 download_one 函数 本 刁 也 得 是 协 程 。 每 次 请 求 
IM, download_many 函数 会 创建 一 个 download_one 协 程 对 象 ， 这些 
协 程 对 象 先 使 用 asyncio.wait 协 程 包装 ， 然 后 由 
loop.run_until_complete 方法 驱动 。 


asyncio 包 中 有 很 多 新 概念 要 掌握 ， 不 过 ， 如 果 你 采用 Guido van 
Rossum 建议 的 一 个 技巧 ， 就 能 轻松 地 理解 示例 18-5 的 总 体 逻 辑 : KE 
IR, ARIA yield from 关键 字 。 这 样 做 之 后 ， 你 会 发 现 示例 18-5 
中 的 代码 与 纯粹 依 序 下 载 的 代码 一 样 易于 阅读 。 


比如 说 ， 以 这 个 协 程 为 例 : 


@asyncio.coroutine 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 


resp = yield from aiohttp.request('GET', url) 
image = yield from resp.read() 
return image 


RATE RI Pa eR I EA AHI, OR AS ee MAS EL 


def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = aiohttp.request('GET', url) 


image = resp.read() 
return image 


yield from foo 句法 能 防止 阻塞 ， 是 因为 当前 协 程 〈 即 包含 yield 
From 代码 的 委派 生成 器 ) 暂停 后 ， eae pa 再 去 驱 


动 其 他 协 程 ，foo 期 物 或 协 程 运 行 完毕 后 ， 把 结果 返回 给 暂停 的 协 程 ， 
将 其 恢复 。 


在 16.7 节 的 末尾 ， 我 对 yield from 的 用 法 做 了 两 点 陈述 ， 摘 要 如 
Fe 


。 使 用 yield from 链接 的 多 个 协 程 最 终 必须 由 不 是 协 程 的 调用 方 驱 
动 ， 调 用 方 显 式 或 隐 式 例如， 在 for 循环 中 ) 在 最 外 层 委派 生成 
器 上 调用 next(...) 函数 或 .send(...) 方 法。 


。 链 条 中 最 内 层 的 子 生成 器 必须 是 简单 的 生成 器 (只 使 用 yield) 或 
ALBARN R- 


在 asyncio 包 的 API 中 使 用 yield from Ht, SARARIR, AWE 
注意 下 述 细节 。 


。 我 们 编写 的 协 程 链条 始终 通过 把 最 外 层 委 派生 成 器 传 给 asyncio 
包 API 中 的 某 个 函数 (如 loop.run_until complete(...)) IX 
动 。 


也 就 是 说 ， 使 用 asyncio 包 时 ， 我 们 编写 的 代码 不 通过 调用 
next(...) 函数 或 .send(...) 方法 驱动 协 程 一 一 这 一 点 由 
asyncio 包 实 现 的 事件 循环 去 做 。 


我 们 编写 的 协 程 链条 最 终 通 过 yield from 把 职责 委托 给 asyncio 
包 中 的 某 个 协 程 函 数 或 协 程 方法 (例如 示例 18-2 中 的 yield from 
asyncio.sleep(...))， 或 者 其 他 库 中 实现 高 层 协议 的 协 程 ( 例 
如 示例 18-5 中 get_flag 协 程 里 的 resp = yield from 
aiohttp. request('GET', url)) 。 


也 就 是 说 ， 最 内 层 的 子 生成 器 是 库 中 真正 执行 VO 操作 的 函数 ， 而 
不 是 我 们 自己 编写 的 函数 。 


概括 起 来 就 是 : 使 用 asyncio 包 时 ， 我 们 编写 的 异步 代码 中 包含 由 
aeo 本 身 驱 动 的 协 程 〈 即 委派 生成 器 ) ， 而 生成 器 最 终 把 职责 委托 
全 asyncio 包 或 第 三 方 库 Cul aiohttp) 中 的 协 程 。 这 种 处 理 方式 相 
oes oe Ean Sti Ge a ene E 

执行 低层 异步 VO 操作 的 库 函 数 。 


现在 可 以 回答 第 17 章 提 出 的 那个 问题 了 。 


e flags asyncio.py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎 
么 会 比 后 者 快 5 倍 ? 


18.3 wo PA SEA a H 


Ryan Dahl (Node.js WAH A) 在 介绍 他 的 项 目 背 后 的 哲学 时 说 :“ 我 们 
处 理 VO 的 方式 彻底 错 了 。 S 他 把 执行 硬盘 或 网 络 VO 操作 的 函数 定义 
为 阻塞 型 函数 ， 主 张 不 能 像 对 待 非 阻 寨 型 函数 那样 对 待 了 蛆 塞 型 函数 。 
为 了 说 明 原 因 ， 他 展示 了 表 18-1 中 的 前 两 列 。 


*Tntroduction to Node.js” (https:/www.youtube.com/watch?v=M-sc73Y-zQA) 视 频 4:55 处 。 


表 18-1: 使 用 现代 的 电脑 从 不 同 的 存储 介质 中 读 取 数据 的 延迟 情 
况 ; 第 三 栏 按 比 例 换算 成 具体 的 时 间 ， 便于 人 类 理解 


fe REMAS 


为 了 理解 表 18-1， 请 记 住 一 点 : 现代 的 CPU 拥有 GHz 数量 级 的 时 钟 频 


率 ， 每 秒 钟 能 运行 几 十 亿 个 周期 。 假 设 CPU 每 秒 正好 运行 十 亿 个 周 
期 ， 那 么 CPU 可 以 在 一 秒 钟 内 读 取 LI 缓存 333 333 333 次 ， 读 取 网 络 4 
次 〈 只 有 4 次 ) 。 表 18-1 中 的 第 三 栏 是 拿 第 二 栏 中 的 各 个 值 滋 以 固定 
的 因子 得 到 的 。 因 此 ， 在 另 一 个 世界 中 ， 如 果 读 取 L 缓存 要 用 3 秒 ， 
那么 读 取 网 络 要 用 7.6 年! 


有 两 种 方法 能 避免 阻塞 型 调用 中 止 整个 应 用 程序 的 进程 : 
。 在 单独 的 线程 中 运行 各 个 阻 暑 型 操作 
o 把 每 个 阻塞 型 操作 转换 成 非 阻塞 的 异步 调用 使 用 


多 个 线程 是 可 以 的 ， 但 是 各 个 操作 系统 线程 《Python 使 用 的 是 这 种 线 
程 ) 消耗 的 内 存 达 兆 字 节 (具体 的 量 取 决 于 操作 系统 种 类 ) 。 如 果 要 处 
理 儿 干 个 连接 ， 而 每 个 连接 都 使 用 一 个 线程 的 话 ， 我 们 负担 不 起 。 


为 了 降低 内 存 的 消耗 ， 通 第 使 用 回调 来 实现 异步 调用 。 这 是 一 种 低层 概 
念 ， 类 似 于 所 有 并 发 机 制 中 最 古老 、 最 原始 的 那 种 一 一 便 件 中 断 。 使 用 
回调 时 ， 我 们 不 等 等 啊 应 ， 而 是 注册 一 个 函数 ， 在 发 生 某 件 事 时 调用 。 

这 样 ， 所 有 调用 都 是 非 阻 赛 的 。 因 为 回调 简单 ， 而 且 消 耗 低 ， 所 以 Ryan 
Dahl 拥护 这 种 方式 。 


当然 ， 只 有 姑 步 应 用 程序 底层 的 事件 循环 能 依靠 基础 设置 的 中 断 、 线 
程 、 轮 询 和 后 合 进程 等 ， 确 保 多 个 并 发 请 求 能 取得 进展 并 最 终 完 成 ， 这 
样 才能 使 用 回调 。 事件 循环 获得 响应 后 ， 会 回 过 头 来 调用 我 们 指定 的 
回调 。 不 过 ， 如 果 做 法 正确 ， 事 件 循环 和 应 用 代码 共用 的 主线 程 绝 不 会 
阻塞 。 


6 其 实 ， 虽 然 Node.js 不 支持 使 用 JavaScript 编写 的 用 户 级 线程 ， 但 是 在 背后 却 借助 1ibeio 库 
使 用 C 语言 实现 了 线程 池 ， 以 此 提供 基于 回调 的 文件 API 因为 从 2014 年 起 ， 大 多 数 操作 
系统 都 不 提供 稳定 且 便 携 的 异步 文件 处 理 API To 


把 生成 费 当 作协 程 使 用 是 异步 编程 的 为 一 种 方式 。 对 事件 循环 来 说 ， 调 
用 回调 与 在 暂停 的 协 程 上 调用 .send() 方法 效果 差不多 。 各 个 暂停 的 
协 程 是 要 消耗 内 存 ， 但 是 比 线程 消耗 的 内 存 数量 级 小 。 而 且 ， 协 程 能 避 
免 可 怕 的 “回调 地 狱 ”， 这 一 点 会 在 18.5 市 讨论 。 


现在 你 应 该 能 理解 为 什么 flags_asyncio.py 脚本 的 性 能 比 flags.py 脚本 高 
54%: flags.py 脚本 依 序 下 载 ， 而 每 次 下 载 都 要 用 几 十 亿 个 CPU 周期 
等 待 结果 。 其 实 ，CPU 同时 做 了 很 多 事 ， 只 是 没有 运行 你 的 程序 。 与 此 
相 比 ， 在 flags_asyncio.py 脚本 中 ， 在 download_many 函数 中 调用 
loop.run_until_complete 方法 时 ， 事 件 循 环 驱动 各 个 
download_one 协 程 ， 运 行 到 第 一 个 yield from 表达 式 处， 那个 表达 
式 又 驱动 各 个 get_flag 协 程 ， 运 行 到 第 一 个 yield from KANA, 


调用 aiohttp.request(...) 函数 。 这 些 调用 都 不 会 阻塞 ， 因 此 在 零 
点 几 秒 内 所 有 请 求全 部 开始 。 


asyncio 的 基础 设施 获得 第 一 个 啊 应 后 ， 事 件 循环 把 响应 发 给 等 待 结 

的 get_flag 协 程 。 得 到 响应 后 ，get_flag 向 前 执行 到 下 一 个 yield 
from 表达 式 处 ， 调 用 resp.read() 方法 ， 然 后 把 控制 权 还 给 主 循环 。 
其 他 啊 应 会 陆续 返回 (因为 请 求 几 乎 同时 发 出 ) 。 所 有 get_ flag H 
程 都 获得 结果 后 ， 委 派生 成 器 download_one 恢复 ， 保 存 图 像 文 件 。 


` 为 了 尽量 提高 性 能 ，save_flag 函数 应 该 执行 异步 操作 ， 可 
是 asyncio 包 目 前 没有 提供 异步 文件 系统 API (Node A) o WR 
这 是 应 用 的 瓶颈 ， 可 以 使 用 loop.run_in_executor 方法 

Chttps://docs.python.org/3/library/asyncio- 
eventloop.html#asyncio.BaseEventLoop.run in executor) ， 在 线程 池 
中 运行 save flag 函数 。 示 例 18-9 会 说 明 做 法 。 


因为 异步 操作 是 交叉 执行 的 ， 所 以 并 发 下 载 多 张 图 像 所 需 的 总 时 间 比 依 
序 下 载 少 得 多 。 我 使 用 asyncio 包 发 起 了 600 个 HTTP 请 求 ， 获 得 所 
有 结果 的 时 间 比 依 序 下 载 快 70 倍 。 


现在 回 到 那个 HTTP 客户 端 示 例 ， 看 看 如 何 显示 动态 的 进度 条 ， 并 且 恰 
当地 处 理 错 误 。 


18.4 改进 asyncio 下 载 脚本 


17.5 WW, flags2 系列 示例 的 命令 行 接口 相同 。 本 节 要 分 析 这 个 系 
列 中 的 flags2 asyncio.py 脚本 。 例 如 ， 示 例 18-6 展示 如 何 使 用 100 个 并 
RR (-m 100) 从 ERROR 服务 器 中 下 载 100 面 国旗 (-al 100) 。 


示例 18-6 运行 flags2 asyncio.py 脚本 


$ python3 flags2 asyncio.py -s ERROR -al 100 -m 100 
ERROR site: http://localhost:8003/flags 

Searching for 100 flags: from AD to LK 

166 concurrent connections will be used. 


73 flags downloaded. 
27 errors. 
Elapsed time: 0.64s 


Q 
Pes MERANIE 


尽管 线程 版 和 asyncio 版 HTTP 客户 端的 下 载 总 时 间 相 差 无 几 ， 
但 是 asyncio 版 发 送 请 求 的 速度 更 快 ， 因 此 很 有 可 能 对 服务 吉 发 
起 DoS 攻击 。 为 了 全 速 测 试 这 些 并 有 客户 端 ， 应 该 在 本 地 搭建 
HTTP 服务 器 ， 详 情 参 见 本 书 代 码 仓库 

(https://github.com/fluentpython/example-code) 中 17- 
futures/countries/ 目录 里 的 README.rst 文件 

Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README. rst) 。 


下 面 分 析 flags2 asyncio.py 脚本 的 实现 方式 。 


18.4.1 使 用 asyncio.as_completed 函 数 


在 示例 18-5 中 ， 我 把 一 个 协 程 列表 传 给 asyncio.wait 函数 ， 经 由 
loop.run_until _complete 方法 驱动 ， 全 部 协 程 运行 完 see eo 
数 会 返回 所 有 下 载 结果 。 可 是 ， 为 了 更 新 进度 条 ， 各 个 协 程 运 行 结束 后 


就 要 立即 获取 结果 。 在 线程 池 版 示例 中 《〈 见 示例 17-14) ， 为 了 集成 进 
度 条 ， 我 们 使 用 的 是 as_completed 生成 器 函数 ;幸好 ，asyncio 包 提 
供 了 这 个 生成 器 函数 的 相应 版 本 。 


为 了 使 用 asyncio 包 实 现 flags2 示例 ， 我 们 要 重 写 几 个 函数 ;， 重 写 后 
的 函数 可 以 供 concurrent.future 版 重用 。 之 所 以 要 重 写 ， 是 因为 在 
使 用 asyncio 包 的 程序 中 只 有 一 个 主线 程 ， 而 在 这 个 线程 中 不 能 有 阻 
塞 型 调用 ， 因 为 事件 循环 也 在 这 个 线程 中 运行 。 所 以 ， 我 要 重 写 
get_flag 函数 ， 使 用 yield from 访问 网 络 。 现 在 ， 由 于 get_flag 
是 协 程 ， download_one 函数 必须 使 用 yield from 驱动 它 ， 因 此 
download_one 自己 也 要 变 成 协 程 。 之 前 ， 在 示例 18-5 

H, download_one 由 download_many 驱动 : download_one 函数 由 
asyncio. wait 函数 调用 ， 然 后 传 给 loop.run_until_complete 方 
法 。 现 在 ， 为 了 报告 进度 并 处 理 错 误 ， 我 们 要 更 精确 地 控制 ， 所 以 我 把 
download_many 函数 中 的 大 多 数 逻 辑 移 到 一 个 新 的 协 程 
downloader_coro 中 ， 只 在 download_many 函数 中 设置 事件 循环 ， 以 
及 调度 downloader_coro 协 程 。 


示例 18-7 展示 的 是 flags2_asyncio.py 脚本 的 前 半 部 分 ， 定 义 get_flag 
和 download_one 协 程 。 示 例 18-8 列 出 余下 的 源码 ， 定 义 
downloader_coro 协 程 和 download_many 函数 。 


示例 18-7 flags2_asyncio.py: 脚本 的 前 半 部 分 ， 余 下 的 代码 在 示 
例 18-8 中 


import asyncio 
import collections 


import aiohttp 
from aiohttp import web 
import tqdm 


from flags2 common import main, HTTPStatus, Result, save flag 


# 默认 设 为 较 小 的 值 ， 防 止 远程 网 站 出 错 
# 例如 563 - Service Temporarily Unavailable 
DEFAULT_CONCUR_REQ = 5 
MAX_CONCUR_REQ = 1000 


class FetchError(Exception): © 
def _ init__(self, country_code): 
self.country_code = country_code 


@asyncio.coroutine 
def get_flag(base url, cc): @ 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
if resp.status == 200: 
image = yield from resp.read() 
return image 
elif resp.status == 404: 
raise web.HTTPNotFound() 
else: 
raise aiohttp.HttpProcessingError ( 
code=resp.status, message=resp.reason, 
headers=resp. headers) 


@asyncio.coroutine 
def download _one(cc, base_url, semaphore, verbose): © 
try: 
with (yield from semaphore): @ 
image = yield from get_flag(base url, cc) © 
except web.HTTPNotFound: © 
status = HTTPStatus.not_found 
msg = ‘not found 
except Exception as exc: 
raise FetchError(cc) from exc @ 
else: 
save flag(image, cc.lower() + '.gif') © 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 这 个 自 定 义 的 异常 用 于 包装 其 他 AT TP 或 网 络 异 常 ， 并 获取 
country_code， 以 便 报告 错误 。 


© get_flag 协 程 有 三 种 返回 结果 : 返回 下 载 得 到 的 图 像 ，HTTP 响应 
码 为 404 时 ， 抛 出 web.HTTPNotFound 异常 返回 其 他 HTTP 状态 码 


时 ， 抛 出 aiohttp.HttpProcessingError 异常 。 


® semaphore 参数 是 asyncio.Semaphore 类 
Chttps://docs.python.org/3/library/asyncio-sync.html#asyncio.Semaphore ) 
的 实例 。Semaphore 类 是 同步 装置 ， 用 于 限制 并 发 请 求 数量 。 


四 在 yield from 表达 式 中 把 semaphore 当成 上 下 文 管理 器 使 用 ， 防 
止 阻塞 整个 系统 : 如 果 semaphore 计数 器 的 值 是 所 允许 的 最 大 值 ， 只 
有 这 个 协 程 会 阻塞 。 


@ 退出 这 个 with 语句 后 ，semaphore 计数 器 的 值 会 递减 ， 解 除 阻塞 可 
能 在 等 待 同一 个 semaphore 对 象 的 其 他 协 程 实例 。 


@ 如 果 没 找到 国旗 ， 相 应 地 设置 Result 的 状态 。 


O 其 他 异常 当 作 FetchError 抛 出 ， 传 入 国家 代码 ， 并 使 用 "PEP 3134 
— Exception Chaining and Embedded 

Tracebacks” Chttps://www.python.org/dev/peps/pep-3134/) 引入 的 raise 
X from Y 句法 链接 原来 的 异常 。 


O 这 个 函数 的 作用 是 把 国旗 文件 保存 到 硬盘 中 。 


可 以 看 出 ， 与 依 序 下 载 版 相 比 ， 示 例 18-7 中 的 get_flag 和 
download_one 函数 改动 幅度 很 大 ， 因 为 现在 这 两 个 函数 是 协 程 ， 要 使 
用 yield from 做 异步 调用 。 


对 于 我 们 分 析 的 这 种 网 络 客户 端 代 码 来 说 ， 一 定 要 使 用 某 种 限 流 机 制 ， 
防止 同 服 务 器 发 起 太 多 并 发 请 求 ， 因 为 如 果 服 务 嚣 过载 ， 那 么 系统 的 整 
体 性 能 可 能 会 下 降 。flags2 threadpool.py 脚本 〈 见 示例 17-14) 限 流 的 方 
法 是 ， 在 download_many 函数 中 实例 化 ThreadPoolExecutor 类 时 把 
max_workers 参数 的 值 设 为 concur_req， 只 在 线程 池 中 启动 
concur_req 个 线程 。 在 flags2 asyncio.py 脚本 中 我 的 做 法 是 ， 在 
downloader_coro 函数 中 创建 一 个 asyncio.Semaphore 实例 (在 后 
面 的 示例 18-8 中 ) ， 然 后 把 它 传 给 示例 18-7 中 download_one 函数 的 
semaphore 参数 。7 


7 感谢 Guto Maia 指出 本 书 的 草稿 没有 说 明 Semaphore 类 。 


Semaphore Xf RAE a ThA at as, AEM REV .acquire() 
re Ariz, tRNA OTR EVA .release() 协 程 方法 ， 计 
数 器 则 递增 ,计数 器 的 初始 值 在 实例 化 Semaphore 时 设 定 ， 如 
downloader_coro 函数 中 的 这 一 行 所 示 : 


semaphore = asyncio.Semaphore(concur_req) 


如 果 计 数 器 大 于 零 ， 那 么 调用 .acquire() 方法 不 会 阻塞 ， 可 是 ， 如 果 
计数 器 为 零 ， 那 么 .acquire( ) 方法 会 阻塞 调用 这 个 方法 的 协 程 ， 直 到 
其 他 协 程 在 同一 个 Semaphore 对 象 上 调用 .release() 方法 ， 让 计数 
器 递增 。 在 示例 18-7 中 ， 我 没有 调用 .acquire() 或 .release() 方 
法 ， 而 是 在 download_one 函数 中 的 下 述 代码 块 中 把 semaphore 当 作 
上 下 文 管理 器 使 用 : 


with (yield from semaphore): 
image = yield from get flag(base url, cc) 


这 段 代 码 保证 ， 任 何 时 候 都 不 会 有 超过 concur_req 个 get_flag 协 程 


启动 。 


现在 来 分 析 示 例 18-8 中 这 个 脚本 余下 的 人 代码。 注意，download_many 
函数 中 以 前 的 大 多 数 功能 现在 都 在 downloader_coro 协 程 中 。 我 们 必 
须 这 么 做 ， 因 为 必须 使 用 yield from 获取 asyncio.as_completed 
函数 产 出 的 期 物 的 结果 ， 所 以 as_completed 函数 必须 在 协 程 中 调用 。 
可 是 ， 我 不 能 直接 把 download_many 函数 改 成 协 程 ， 因 为 必须 在 脚本 
的 最 后 一 行 把 download_many 函数 传 给 flags2_common 模块 中 定义 
的 main 函数 ， 可 main 函数 的 参数 不 是 协 程 ， 而 是 一 个 普通 的 函数 。 
因此 ， 我 定义 了 downloader_coro 协 程 ， 让 它 运 行 as_completed 循 
环 。 现 在 ，download_many 函数 只 用 于 设置 事件 循环 ， 并 把 
downloader_coro 协 程 传 给 loop.run_until_complete 方法 ， 调 度 
downloader_coro. 


示例 18-8 ”flags2 asyncio.py: 接续 示例 18-7 


@asyncio.coroutine 


def downloader_coro(cc_list, base_url, verbose, concur_req): © 
counter = collections.Counter() 
semaphore = asyncio.Semaphore(concur_req) @ 
to_do = [download_one(cc, base_url, semaphore, verbose) 
for cc in sorted(cc_list)] © 


to_do_iter = asyncio.as completed(to_do) @ 
if not verbose: 
to do iter = tqdm.tqdm(to do iter, total=len(cc_list)) © 
for future in to do iter: © 
try: 
res = yield from future @ 
except FetchError as exc: © 
country_code = exc.country_code © 
try: 
error_msg = exc. cause .args[6] 四 
except IndexError: 
error_msg = exc. Ccause . Class . name  @ 
if verbose and error_msg: 
msg = '*** Error for {}: {}' 
print(msg.format(country_code, error_msg) ) 
status = HTTPStatus.error 
else: 
status = res.status 


counter[status] += 1 @ 


return counter © 


def download_many(cc_list, base_url, verbose, concur_req): 
loop = asyncio.get_event_loop() 
coro = downloader_coro(cc_list, base_url, verbose, concur_req) 
counts = loop.run_until_complete(coro) © 
loop.close() © 
return counts 

if _name_ == ' main_': 
main(download_many, DEFAULT CONCUR REQ, MAX_CONCUR_REQ) 


O 这 个 协 程 的 参数 与 download_many 函数 一 样 ， 但 是 不 能 直接 调用 ， 
因为 它 是 协 程 函 数 ， 而 不 是 像 download many 那样 的 普通 函数 。 


© 创建 一 个 asyncio.Semaphore 实例 ， 最 多 允许 激活 concur_req 个 
使 用 这 个 计数 器 的 协 程 。 


© 多 次 调用 download_one 协 程 ， 创 建 一 个 协 程 对 象 列表 。 

O 获取 一 个 欠 代 器 ， 这 个 迭 代 器 会 在 期 物 运 行 结 束 后 返回 期 物 。 

O 把 迭代 器 传 给 tqdm 函数 ， 显 示 进 度 。 

O 迭代 运行 结束 的 期 物 ， 这 个 循环 与 示例 17-14 中 download_many K 

数 里 的 那个 十 分 相似 ; 不 同 的 部 分 主要 是 异常 处 理 ， 因 为 两 个 HTTP 库 
Crequests 和 aiohttp) 之 间 有 差异 。 


@ 获取 asyncio. Future 对 象 的 结果 ， 最 简单 的 方法 是 使 用 yield 
from， 而 不 是 调用 future.result() 方法 。 


@ download_one 函数 抛 出 的 各 个 异常 都 包装 在 FetchError 对 象 里 ， 
并 且 链 接 原 来 的 异常 。 


© 从 FetchError 异常 中 获取 错误 发 生 时 的 国家 代码 。 
© 尝试 从 原来 的 异常 ( cause ) 中 获取 错误 消息 。 
D 如 果 在 原来 的 异常 中 找 不 到 错误 消息 ， 使 用 所 链接 异常 的 类 名 作为 


fa DIB IS o 
(12 记录 结 
O 与 其 他 脚本 一 样 ， 返 回 计数 器 。 


D download_many 函数 只 是 实例 化 downloader_coro 协 程 ， 然 后 通 
过 run_until_complete 方法 把 它 传 给 事件 循环 。 


@ 昌 所 有 工作 做 完 后 ， 关 闭 事件 循环 ， 返 回 counts. 


在 示例 18-8 中 不 能 像 示 例 17-14 那样 把 期 物 映射 到 国家 代码 上 ， 因 为 
asyncio.as_completed 函数 返回 的 期 物 与 传 给 as_completed 函数 
的 期 物 可 能 不 同 。 在 asyncio 包 内 部 ， 我 们 提供 的 期 物 会 被 蔡 换 成 生 
成 相同 结果 的 期 物 。8 


8 关于 这 一 点 的 详细 讨论 ， 可 以 阅读 我 在 python-tulip 讨论 组 中 发 起 的 话题 ， 题 为 “Which other 
futures my come out of asyncio.as completed?” (https://groups.google.com/forum/#!msg/python- 


tulip/PdA EtwpaJHs/7fqb-Qj2zJoJ) > Guido 回复 了 ， 而 且 深入 分 析 了 as_completed 函数 的 实 
现 ， 还 说 明了 asyncio 包 中 期 物 与 协 程 之 间 的 紧密 关系 。 


因为 失败 时 不 能 以 期 物 为 键 从 字典 中 获取 国家 代码 ， 所 以 我 实现 了 上 自 定 
义 的 FetchError 异常 (如 示例 18-7 所 示 ) 。FetchError 包装 网 络 异 
和 常 ， 并 关联 相应 的 国家 代码 ， 因 此 在 详细 模式 中 报告 错误 时 能 显示 国家 
代码 。 如 果 没 有 和 错误， 那么 国家 代码 是 for 循环 顶部 那个 yield from 
future 表达 式 的 结果 。 


我 们 使 用 asyncio 包 实 现 的 这 个 示例 与 前 面 的 flags2 threadpool.py 脚本 
具有 相同 的 功能 ， 这 一 话题 到 此 结束 。 接 下 来 ， 我 们 要 改进 
flags2 asyncio.py 脚本 ， 进 一 步 探索 asyncio 包 。 


在 分 析 示 例 18-7 的 过 程 中 ， 我 发 现 save_flag 函数 会 执行 便 盘 IO 操 
作 ， 而 这 应 该 异步 执行 。 下 一 节 说 明 做 法 。 


18.4.2 ”使 用 Executor 对 象 ， 防 止 阻塞 事件 循环 


Python 社区 往往 会 忽略 一 个 事实 一 一 访问 本 地 文件 系统 会 阻 豆 ， 想 当然 
地 认为 这 种 操作 不 会 受 网 络 访问 的 高 延迟 影响 〈 这 也 极 难 预料 ) 。 与 之 
相 比 ，Node.js 程序 员 则 始终 齐 记 ， 上 所 有 文件 系统 函数 都 会 阻塞 ， 因 为 
这 些 函 数 的 签名 中 指明 了 要 有 回调 。 表 18-1 已 经 指出 ， 硬 盘 VO 阻塞 会 
“a CPU 周期 ， 而 这 可 能 会 对 应 用 程序 的 性 能 产生 重大 影 

Hn] 。 


在 示例 18-7 中 ， 阻 塞 型 函数 是 save flag。 在 这 个 脚本 的 线程 版 中 

〈 见 示例 17-14) , save_flag phi 2 fH 3818477 download_one pA ACH) 
线程 ， 但 是 阻塞 的 只 是 众多 工作 线程 中 的 一 个 。 阻 塞 型 VO 调用 在 背后 
会 释放 GILL， 因 此 另 一 个 线程 可 以 继续 。 但 是 在 flags2 asyncio.py 脚本 
H, save_flag 函数 阻塞 了 客户 代码 与 asyncio 事件 循环 共用 的 唯一 
线程 ， 因 此 保存 文件 时 ， 整 个 应 用 程序 都 会 冻结 。 这 个 问题 的 解决 方法 
是 ， 使 用 事件 循环 对 象 的 run_in_executor 方法 。 


asyncio 的 事件 循环 在 背后 维护 着 一 个 ThreadPoolExecutor 对 象 ， 
我 们 可 以 调用 run_in_executor 方法 ， 把 可 调用 的 对 象 发 给 它 执行 。 
若 想 在 这 个 示例 中 使 用 这 个 功能 ，down1load_one 协 程 只 有 几 行 代码 需 
要 改动 ， 如 示例 18-9 Aras. 


示例 18-9 flags2 asyncio executor.py: 使 用 默认 的 
ThreadPoolExecutor 对 象 运行 save flag KAŽ 


@asyncio.coroutine 
def download _one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): 
image = yield from get_flag(base url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 


loop = asyncio.get_event_loop() @ 
loop.run_in_executor(None, @ 

save flag, image, cc.lower() + '.gif') © 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 获取 事件 循环 对 象 的 引用 。 


四 run_in_executor 方法 的 第 一 个 参数 是 Executor 实例 ; 如 果 设 为 
None， 使 用 事件 循环 的 默认 ThreadPoolExecutor 实例 。 


O 余下 的 参数 是 可 调用 的 对 象 ， 以 及 可 调用 对 象 的 位 置 参数 。 


` 我 测试 示例 18-9 时 ， 没 有 发 现 改 用 run_in_executor 方法 
保存 图 像 文件 后 性 能 有 明显 变化 ， 因 为 图 像 都 不 大 平均 

13KB) 。 不 过 ， 如 果 编 辑 flags2 common.py 脚本 中 的 save_flag 
函数 ， 把 各 个 文件 保存 的 字 节 数 变 成 原来 的 10 倍 《〈 只 需 把 
fp.write(img) WIX fp.write(img*10)) ， 此 时 便 会 看 到 效 
果 。 下 载 的 平均 字 节 数 变 成 130KB 后 ， 使 用 run_in_executor 方 
a 如 有 果 下 载 包 含 百 万 像素 的 图 像 ， 速 度 提升 

明显 。 


如 果 需 要 协调 异步 请 求 ， 而 不 只 是 发 起 完全 独立 的 请 求 ， 协 程 较 之 回调 
的 好 处 会 变 得 显而易见 。 下 一 节 说 明 回 调 的 问题 ， 并 给 出 解决 方法 。 


18.5 从 回调 到 期 物 和 协 程 


使 用 协 程 做 面向 事件 编程 ， 需 要 下 一 番 功 夫 才 能 掌握 ， 因 此 最 好 知道 ， 
与 经 典 的 回调 式 编程 相 比 ， 协 程 有 哪些 改进 。 这 就 是 本 节 的 话题 。 


只 要 对 回调 式 面 回 事 件 编程 有 一 定 的 经 验 ， 就 知道 “回调 地 狱 ” 这 个 术 
语 : 如 果 一 个 操作 需要 依赖 之 前 操作 的 结果 ， 那 就 得 租 套 回调 。 如 果 要 
连续 做 3 次 异步 调用 ， 那 就 需要 钥 套 3 层 回调 。 示 例 18-10 是 一 个 使 用 
JavaScript 编写 的 例子 。 


示例 18-10 JavaScript 中 的 回调 地 狱 : 舱 套 匿名 函数 ， 也 称 为 灾难 


金字 塔 


api calli(request1, function (response1) { 
Ae aE 
Ay ey 


var request2 = step1(responsel1) ; 


api_call2(request2, function (response2) { 
// 第 二 步 


var request3 = step2(response2) ; 


api_call3(request3, function (response3) { 
第 三 步 
step3(response3); 


}); 


在 示例 18-10 F, api_call1, api_call2 Ñl api_call3 是 库 函 数 ， 

用 于 异步 获取 结果 。 例 如 ，api_ cal11 从 数据 库 中 获取 结 

R, api_call2 从 Web 服务 器 中 获取 结果 。 这 3 个 函数 都 有 回调 。 在 

JavaScript 中 ， 回 调 通 常 使 用 匿名 函数 实现 (在 下 述 Python 示例 中 分 别 

把 这 3 个 回调 命名 为 stage1、stage2 和 stage3) 。 这 里 的 

e 和 step3 是 应 用 程序 中 的 第 规 函数 ， 用 于 处 理 回 调 接收 
I HS) Haj MY 。 


示例 18-11 展示 Python 中 的 回调 地 狱 是 什么 样子 。 


示例 18-11 Python 中 的 回调 地 狱 : 链 式 回调 


def stage1(response1): 
request2 = step1(response1) 
api_call2(request2, stage2) 


def stage2(response2): 
request3 = step2(response2) 
api_call3(request3, stage3) 


def stage3(response3): 
step3(response3) 


api_calli(request1, stage1) 


虽然 示例 18-11 中 的 代码 与 示例 18-10 的 排 布 方式 差异 很 大 ， 但 是 作用 
却 完全 相同 。 前 述 JavaScript 示例 也 能 改写 成 这 种 排 布 方式 (但 是 这 上 段 
Python 代码 不 能 改写 成 JavaScript 那 种 风格 ， 因 为 lambda 表达 式 句 法 
上 有 限制 ) 。 


示例 18-10 和 示例 18-11 组 织 代码 的 方式 导致 代码 难以 阅读 ， 也 更 难 编 
写 : 每 个 函数 做 一 部 分 工作 ， 设 置 下 一 个 回调 ， 然 后 返回 ， 让 事件 循环 
继续 运行 。 这 样 ， 所 有 本 地 的 上 下 文 都 会 丢失 。 执 行 下 一 个 回调 时 〔 例 
如 stage2) ， 就 无 法 获取 request2 的 值 。 如 果 需 要 那个 值 ， 那 就 必 
人 
阶段 


在 这 个 问题 上 ， 协 程 能 发 挥 很 大 的 作用 。 在 协 程 中 ， 如 果 要 连续 执行 3 
个 异步 操作 ， 只 需 使 用 yield3 次 ， 让 事件 循环 继续 运行 。 准 备 好 结 

后 ， 调 用 .send() 方法 ， 激 活 协 程 。 对 事件 循环 来 说 ， 这 种 做 法 与 调 
用 回调 类 似 。 但 是 对 使 用 协 程式 异步 API 的 用 户 来 说 ， 情 况 就 大 为 不 同 
了 : 3 次 操作 都 在 同一 个 函数 定义 体 中 ， 像 是 顺序 代码 ， 能 在 处 理 过 程 
中 使 用 局 部 变量 保留 整个 任务 的 上 下 文 。 请 看 示例 18-12。 


示例 18-12 ”使 用 协 程 和 yield from 结构 做 异步 编程 ， 无 需 使 用 
回调 


@asyncio.coroutine 

def three_stages(request1): 
responsel = yield from api_call1(request1) 
# 第 一 步 
request2 = step1(response1) 
response2 = yield from api_call2(request2) 
# 第 二 步 
request3 = step2(response2) 
response3 = yield from api_call3(request3) 
# 第 三 步 


step3(response3) 


loop.create_task(three_stages(request1)) # 必须 显 式 调度 执行 


与 前 面 的 JavaScript 和 Python 示例 相 比 ， 示 例 18-12 容易 理解 多 了 : H 
作 的 3 个 步骤 依次 写 在 同一 个 函数 中 。 这 样 ， 后 续 处 理 便 于 使 用 前 一 步 
的 结果 ; 而且 提供 了 上 下 文 ， 能 通过 异常 来 报告 错误 。 


假设 在 示例 18-11 中 处 理 api_call2(request2，stage2) 调用 


(stage1 函数 最 后 一 行 ) 时 抛 出 了 IO 异常 ， 这 个 异常 无 法 在 stagel 
函数 中 捕获 ， 因 为 api_call2 是 异步 调用 ， 还 未 执行 任何 IO 操作 就 
会 立即 返回 。 在 基于 回调 的 API 中 ， 这 个 问题 的 解决 方法 是 为 每 个 异步 
调用 注册 两 个 回调 ， 一 个 用 于 处 理 操作 成 功 时 返回 的 结果 ， 男 一 个 用 于 
处 理 错 误 。 一 旦 涉及 错误 处 理 ， 回 调 地 狱 的 危害 程度 就 会 迅速 增 大 。 


与 此 相 比 ， 在 示例 18-12 中 ， 那 个 三 步 操 作 的 所 有 异步 调用 都 在 同一 个 
函数 中 (three_stages) ， 如 有 果 和 异步 调用 api_call1、api_call2 和 
api_call3 会 抛 出 异常 ， 那 么 可 以 把 相应 的 yield from 表达 式 放 在 
try/except 块 中 人 处理 异常 。 


这 么 做 比 陷 入 回调 地 狱 好 多 了 ， 但 是 我 不 会 把 这 种 方式 称 为 协 程 天 堂 ， 
毕竟 我 们 还 要 付出 代价 。 我 们 不 能 使 用 常规 的 函数 ， 必 须 使 用 协 程 ， 而 
AS yield from 一 一 这 是 第 一 个 障碍 。 只 要 函数 中 有 yield 
from， 了 函数 就 会 变 成 协 程 ， 而 协 程 不 能 直接 调用 ， 即 不 能 像 示例 18-11 
中 那样 调用 api_calli(request1, stage1) 来 启动 回调 链 。 我 们 必 
须 使 用 事件 循环 显 式 排 定 协 程 的 执行 时 间 ， 或 者 在 其 他 排 定 了 执行 时 间 
的 协 程 中 使 用 yield from 表达 式 把 它 激活 。 如 果 示 例 18-12 没有 最 后 
一 行 (loop .create task(three_stages(request1))) ， 那 么 什么 


也 不 会 发 生 。 
下 面 举 个 例子 来 实践 这 个 理论 。 


每 次 下 载 友 起 多 次 请 求 


假设 保存 每 面 国旗 时 ， 我 们 不 仅 想 在 文件 名 中 使 用 国家 代码 ， 还 想 加 上 
国家 名 称 。 那 么 ， 下 载 每 面 国旗 时 要 发 起 两 个 请 求 : 一 个 请 求 用 于 获取 
国旗 ， 另 一 个 请 求 用 于 获取 网 像 所 在 目录 里 的 metadata.json 文件 (记录 
着 国家 名 称 〉。 


在 同一 个 任务 中 发 起 多 个 请 求 ， 这 对 线程 版 脚本 来 说 很 容易 : 只 需 接连 
发 起 两 次 请 求 ， 阻 塞 线程 两 次 ， 把 国家 代码 和 国家 名 称 保存 在 局 部 变量 
中 ， 在 保存 文件 时 使 用 。 如 果 想 在 异步 脚本 中 使 用 回调 做 到 这 一 点 ， 你 
会 闻 到 回调 地 狱 中 颈 来 的 硫磺 味道 ， 国 家 代码 和 名 称 要 放 在 闭 包 中 传 来 
传 去 ， 或 者 保存 在 某 个 地 方 ， 在 保存 文件 时 使 用 ， 这 么 做 是 因为 各 个 回 
调 在 不 同 的 局 部 上 下 文中 运行 。 协 程 和 yield from 结构 能 缓解 这 个 问 
e 0 (E re LE BE IREK He £ JE] ji 
管理 。 


示例 18-13 是 使 用 asyncio 包 下 载 国旗 脚本 的 第 3 版 ， 这 一 次 国旗 的 文 
件 名 中 有 国家 名 称 。 flags2 asyncio.py 脚本 (示例 18-7 和 示例 18-8) 中 
的 download_many 函数 和 downloader_coro 协 程 没 变 ， 有 变化 的 是 
下 面 的 内 容 。 


download_one 


现在 ， 这 个 协 程 使 用 yield from 把 职责 委托 给 get_flag 协 程 和 
新 添 的 get_country 协 程 。 


get flag 


这 个 协 程 的 大 多 数 代码 移 到 新 添 的 http_get 协 程 中 了 ， 以 便 也 能 
在 get_country 协 程 中 使 用 。 


get_country 


这 个 协 程 获取 国家 代码 相应 的 metadata.json 文件 ， 从 文件 中 读 取 


http_get 
从 Web 获取 文件 的 通用 代码 。 


示例 18-13 flags3_asyncio.py: 再 定义 几 个 协 程 ， 把 职责 委托 出 
去 ， 每 次 下 载 国旗 时 发 起 两 次 请 求 


@asyncio.coroutine 

def http_get(url): 
res = yield from aiohttp.request('GET', url) 
if res.status == 200: 


ctype = res.headers.get('Content-type’, '').lower() 
if 'json' in ctype or url.endswith('json'): 
data = yield from res.json() @ 
else: 
data = yield from res.read() @ 
return data 


elif res.status == 404: 
raise web.HTTPNotFound() 
else: 
raise aiohttp.errors.HttpProcessingError( 
code=res.status, message=res.reason, 
headers=res.headers) 


@asyncio.coroutine 

def get_country(base_ url, cc): 
url = '{}/{cc}/metadata.json'.format(base url, cc=cc.lower()) 
metadata = yield from http_get(url) © 
return metadata[ ‘country' ] 


@asyncio.coroutine 

def get_flag(base url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
return (yield from http_get(url)) @ 


@asyncio.coroutine 
def download one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): © 


image = yield from get_flag(base url, cc) 
with (yield from semaphore): 
country = yield from get_country(base_ url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 
country = country.replace(' ', '_') 
filename = '{}-{}.gif'.format(country, cc) 
loop = asyncio.get_event_loop() 
loop.run_in_executor(None, save flag, image, filename) 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 如 果 内 容 类 型 中 包含 'json'， 或 者 url 以 .json 结尾， 那么 在 响应 


上 调用 .json() 方法 ， 解 析 啊 应 ， 返 回 一 个 Python 数据 结构 


里 是 一 个 字典 。 
四 否则， 使 用 .read() 方法 读 取 原始 字 节 。 
@ metadata 变量 的 值 是 一 个 由 JSON 内 容 构建 的 Python 字典 。 


O 这 里 必须 在 外 层 加 上 括号 ， 如 果 直 接 写 return yield from, 
Python 解析 器 会 不 明 所 以 ， 报 告 句法 错误 。 


O 我 分 别 在 semaphore 控制 的 两 个 with 块 中 调用 get_flag 和 
get_country， 因 为 我 想 尽 量 缩减 下 载 时 间 。 


在 这 


在 示例 18-13 F, yield from 句法 出 现 了 9 次 。 现 在 ， 你 应 该 已 经 熟 
et eee a 而 不 阻塞 事件 
循环 。 


问题 的 关键 是 ， 知 道 何 时 该 使 用 yield from， 何 时 不 该 使 用 。 基 本 原 
则 很 简单 ，yield from 只 能 用 于 协 程 和 asyncio. Future 实例 (包括 


Task 实例 ) 。 可 是 有 些 API RR, BERRA DEE A eR, A 
如 下 一 节 实 现 某 个 服务 器 时 使 用 的 StreamWriter 类 。 


示例 18-13 是 本 书 最 后 一 次 讨论 flags2 系列 示例 。 我 建议 你 自己 运行 
那些 示例 ， 有 助 于 对 HTTP 并 发 客户 端的 运作 方式 建立 直观 认识 。 你 可 
以 使 用 -a、-e 和 -1 这 三 个 命令 行 选项 控制 下 载 的 国旗 数量 ， 还 可 以 
使 用 -m 选项 设置 并 发 下 载 数 。 此 外 ， 还 可 以 分 别 使 用 

LOCAL, REMOTE. DELAY 和 ERROR 服务 器 测试 ， 找 出 能 最 大 限度 地 利 
用 各 个 服务 器 的 吞吐 量 的 并 发 下 载 数 。 如 果 想 去 掉 错 误 或 延迟 ， 可 以 修 
改 vaurien error delaysh 脚本 Chttps://github.com/fluentpython/example- 
code/blob/master/17-futures/countries/vaurien_ error delay.sh) 中 的 设置 。 


客户 端 脚本 到 此 结束 ， 接 下 来 使 用 asyncio 包 编 写 服 务 嚣 。 


18.6 ”使 用 asyncio 包 编写 服务 器 


演示 TCP 服务 器 时 通常 使 用 回 显 服 务 器 。 我 们 要 构建 更 好 玩 一 点 的 示 
例 服务 器 ， 用 于 查找 Unicode 字符 ， 分 别 使 用 简单 的 TCP 协议 和 HTTP 
协议 实现 。 这 两 个 服务 器 的 作用 是 ， 让 客户 端 使 用 4.8 市 讨论 过 的 
unicodedata 模块 ， 通 过 规范 名 称 查 找 Unicode 字符 。 图 18-2 展示 了 
在 一 个 Telnet 会 话 中 访问 TCP 版 字符 查找 服务 器 所 做 的 两 次 查询 ， 一 次 
查询 国际 象棋 棋子 字符 ， 一 次 查询 名 称 中 包含 “sunm 的 字符 。 


eoo 4. bash a 
lontra:charfinder luciano$ telnet localhost 2323 

Trying 127.0.0.1... 

Connected to localhost. 

Escape character is 'A]'. 

?> chess black 


U+265A wo BLACK CHESS KING 
U+265B w BLACK CHESS QUEEN 
U+265C x BLACK CHESS ROOK 
U+265D 全 BLACK CHESS BISHOP 
U+265E a BLACK CHESS KNIGHT 
U+265F 2 BLACK CHESS PAWN 

6 matches for ‘chess black' 

?> sun 

U+2600 = BLACK SUN WITH RAYS 
U+2609 œ SUN 

U+263C x WHITE SUN WITH RAYS 


U+26C5 = SUN BEHIND CLOUD 


U+2E9C = CJK RADICAL SUN 

U+2F47 日 KANGXI RADICAL SUN 

U+3230 @ PARENTHESIZED IDEOGRAPH SUN 
U+3290 @ CIRCLED IDEOGRAPH SUN 
U+C21C 4 HANGUL SYLLABLE SUN 

U+1F31E @ SUN WITH FACE 

10 matches for "sun' 

?> AC 


Connection closed by foreign host. 
lontra:charfinder Luciano$ 


图 18-2: 在 一 个 Telnet 会 话 中 访问 tep_charfinder.py 服务 器 一 A 
询 “chess black” 7i “sun” 


接 下 来 讨论 实现 方式 。 


18.6.1 使 用 asyncio 包 编写 TCP 服 务 器 


下 面 几 个 示例 的 大 多 数 逻 辑 在 charfinder.py 模块 中 ， 这 个 模块 没有 任何 
并 发 。 你 可 以 在 命令 行 中 使 用 charfinder.py 脚本 查找 字符 ， 不 过 这 个 脚 
本 更 为 重要 的 作用 是 为 使 用 asyncio 包 编 写 的 服务 器 提供 支持 。 
charfinder.py 脚本 的 代码 在 本 书 的 代码 仓库 中 
(https://github.com/fluentpython/example-code ) 。 


charfinder 模块 读 取 Python 内 建 的 Unicode 数据 库 ， 为 每 个 字符 名 称 
中 的 每 个 单词 建立 索引 ， 然 后 倒 排 索引 ， 存 进 一 个 字典 。 例 如 ， 在 倒 排 
ASIA, "SUN ' 键 对 应 的 条 目 是 一 个 集合 (set) ， 里 面 是 名 称 中 包含 
‘SUN’ 这 个 词 的 10 个 Unicode 字符 。? 倒 排 索引 保存 在 本 地 一 个 名 为 
charfinder_index.pickle 的 文件 中 。 如 果 碍 询 多 个 单词 ，charfinder 会 
计算 从 索引 中 所 得 集合 的 交集 。 


?在 Python 3.5 中 ， 新 增 了 4 个 名 称 中 包含 'SUN' 的 Unicode 字符 : U+1F323 (WHITE 
SUN) . U+1F324 (WHITE SUN WITH SMALL CLOUD) . U+1F325 (WHITE SUN BEHIND 
CLOUD) 和 U+1F326 (WHITE SUN BEHIND CLOUD WITH RAIN) 。 编者 注 


下 面 我 们 把 注意 力 集中 在 响应 图 18-2 中 那 两 个 查询 的 tep_charfinder.py 
脚本 上 。 我 要 对 这 个 脚本 中 的 代码 做 大 量 说 明 ， 因 此 把 它 分 为 两 部 分 ， 
分 别 在 示例 18-14 和 示例 18-15 中 列 出 。 


示例 18-14 tcp charfinder.py: 使 用 asyncio.start_server 函数 
实现 的 简易 TCP 服务 器 ;这 个 模块 余下 的 代码 在 示例 18-15 中 


import sys 
import asyncio 


from charfinder import UnicodeNameIndex @ 


CRLF = b'\r\n' 
PROMPT = b'?> ' 


index = UnicodeNameIndex() @ 


@asyncio.coroutine 
def handle queries(reader, writer): © 
while True: 
writer.write(PROMPT) # 不 能 使 用 yield from! © 
yield from writer.drain() # 必须 使 用 yield from! @ 
data = yield from reader.readline() @ 
try: 


query = data.decode().strip() 
except UnicodeDecodeError: © 

query = '\x@e' 
client = writer.get_extra_info('peername') © 
print('Received from {}: {!r}'.format(client, query)) 四 


if query: 
if ord(query[:1]) < 32: @ 
break 
lines = list(index.find_description_strs(query)) @ 
if lines: 


writer.writelines(line.encode() + CRLF for line in lines) © 
writer.write(index.status(query, len(lines)).encode() + CRLF) ©@ 


yield from writer.drain() © 
print('Sent {} results'.format(len(lines))) © 


print('Close the client socket') ©@ 
writer.close() © 


@ UnicodeNameIndex 类 用 于 构建 名 称 索 引 ， 提 供 查询 方法 。 


O 实例 化 de 类 时 ， 它 会 使 用 charfinder index.pickle 
文件 《如 果 有 的 话 ) ， 或 者 构建 建 这 个 文件 ， 因 此 第 一 次 运行 时 可 能 要 等 
几 秒 钟 服务 器 才能 启动 。 


17 conardo Rochael 指出 ， 可 以 在 示例 18-15 中 的 main 函数 里 使 用 
loop.run_with_executor() 方法 ， 在 另 一 个 线程 中 构建 Unicode 名 称 索 引 ， 这 样 索 引 构 建 好 
之 后 ， 服 务 器 能 立即 开始 接收 请 求 。 他 说 得 对 ， 不 过 这 个 应 用 的 唯一 用 途 是 查询 索引 ， 因 此 那 
样 做 没有 多 大 好 处 。 不 过 ，Leo 建议 的 做 法 是 个 不 错 的 练习 ， 有 兴趣 的 话 你 可 以 去 做 。 


© 这 个 协 程 要 传 给 asyncio.start_server 函数 ， 接 收 的 两 个 参数 是 
asyncio.StreamReader Xx} RA asyncio.StreamWriter 对 象 。 


@ 这 个 循环 处 理会 话 ， 直 到 从 客户 端 收 到 控制 字符 后 退出 。 


@ StreamWriter.write 方法 不 是 协 程 ， 只 是 普通 的 函数 ， 这 一 行 代 
码 发 送 ?> 提示 符 。 


@ StreamWriter.drain 方法 刷新 writer 缓冲; 因为 它 是 协 程 ， 所 以 
` 须 使 用 yield from 调用 。 


@ StreamReader.readline 方法 是 协 程 ， 返 回 一 个 bytes WR. 


O Telnet 客户 端 发 送 控制 字符 时 ， 可 能 会 抛 出 UnicodeDecodeError 
异常 ; 遇 到 这 种 情况 时 ， 为 了 简单 起 见 ， 假 装 发 送 的 是 空 字符 。 


O 返回 与 套 接 字 连接 的 远程 地 址 。 

© 在 服务 器 的 控制 台中 记录 查询 。 

D 如 果 收 到 控制 字符 或 者 空 字符 ， 退 出 循环 。 

@ 返回 一 个 生成 器 ， 产 出 包含 Unicode 人 码 位 、 真 正 的 字符 和 字符 名 称 的 
字符 串 (例如 ，U+6639\t9\tDIGIT NINE) ; 为 了 简单 起 见 ， 我 从 中 
构建 了 一 个 列表 。 


® 使 用 默认 的 UTF-8 编码 把 lines 转换 成 bytes 对 象 ， 并 在 每 一 行 末 
尾 谎 加 回 车 符 和 换行 符 ; VER, BBE SAMS IATL 


@ 答 出 状态 ， 例 如 627 matches for 'digit'. ! 


也 在 Python 3.5 中 ， 是 755 matches for 'digit'. 编者 注 


@ 刷新 输出 缓冲 。 

O 在 服务 器 的 控制 台中 记录 响应 。 
@ 在 服务 器 的 控制 台中 记录 会 话 结 
D 关闭 StreamWriter 流 。 


handle_queries 协 程 的 名 称 是 复数 ， 因 为 它 启 动 交 互 式 会 话 后 能 处 理 
各 个 客户 端 发 来 的 多 次 请 求 。 


注意 ， 示 例 18-14 中 所 有 的 IO 操作 都 使 用 bytes 格式 。 因 此 ， 我 们 要 
解码 从 网 络 中 收 到 的 字符 串 ， 还 要 编码 发 出 的 字符 串 。Python 3 默认 使 
用 的 编码 是 UTF-8， 这 里 就 隐 式 使 用 了 这 个 编码 。 


注意 一 点 ， 有 些 IO 方法 是 协 程 ， 必 须 由 yield from 驱动 ， 而 男 一 些 


则 是 普通 的 函数 。 例 如 ，StreamWriter.write 是 普通 的 函数 ， 我 们 假 
定 它 大 多 数 时 候 都 不 会 阻塞 ， 因 为 它 把 数据 写 入 缓冲 ; 而 刷新 缓冲 并 真 
正 执行 IJO 操作 的 StreamNriter.drain 是 协 

程 ，StreamReader.readline 也 是 协 程 。 写 作 本 书 时 ，asyncio 包 的 
API 文 要 有 重大 的 改进 ， 明 确 标识 出 了 哪些 方法 是 协 程 。 


示例 18-15 接续 示例 18-14， 列 出 这 个 模块 的 main 函数 。 


示例 18-15 tcp_charfinder.py〔 接 续 示 例 18-14) : main 函数 创建 
并 销毁 事件 循环 和 和 套 接 字 服 务 器 


def main(address='127.0.0.1', port=2323): © 
port = int(port) 
loop = asyncio.get_event_loop() 
server_coro = asyncio.start_server(handle queries, address, port, 
loop=loop) @ 
server = loop.run_until_complete(server_coro) © 
host = server.sockets[@].getsockname() 
print('Serving on {}. Hit CTRL-C to stop.'.format(host)) © 
try: 
loop.run_forever() © 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 


print('Server shutting down. ') 

server.close() 
loop.run_until_complete(server.wait_closed()) © 
loop.close() 日 


if name == ' main_': 
main(*sys.argv[1:]) © 


@ 调用 main 函数 时 可 以 不 传 入 参数 。 


© asyncio.start_server 协 程 运行 结束 后 ， 返 回 的 协 程 对 象 返 回 一 
个 asyncio.Server 实例 ， 即 一 个 TCP 套 接 字 服 务 器 。 


© 驱动 server_coro 协 程 ， 局 动 服务 器 (server) 。 
O 获取 这 个 服务 器 的 第 一 个 套 接 字 的 地 址 和 端口 ， 然 后 .……. 


@ .….. 在 服务 器 的 控制 台中 显示 出 来 。 这 是 这 个 脚本 在 服务 器 的 控制 
台中 显示 的 第 一 个 输出 。 


O 运行 事件 循环 ; main 函数 在 这 里 阻塞 ， 直 到 在 服务 器 的 控制 台中 按 
CTRL-C 键 才 会 关闭 。 


O 关闭 服务 器 。 


@ server.wait_closed() 方法 返回 一 个 期 物 ， 调 用 
loop.run_until_complete 方法 ， 运 行 期 物 。 


© 终止 事件 循环 。 


(10) REE EEE n] ENI fi 命令 行 参数 的 人 简便 方式 : 展开 sys.argv[1:], fA 
main 函数 ， 未 指定 的 参数 使 用 相应 的 默认 值 。 


注意 ，run_until_complete 方法 的 参数 是 一 个 协 程 (start_server 
方法 返回 的 结果 ) 或 一 个 Future MR (server.wait closed Fie 
回 的 结果 ) 。 如 果 传 给 run_until_complete 方法 的 参数 是 协 程 ， 会 
把 协 程 包装 在 Task 对 象 中 。 


仔细 查看 tcp_charfinder.py 脚本 在 服务 器 控制 台中 生成 的 输出 《如 示例 
18-16) ， 更 易于 理解 脚本 中 控制 权 的 流动 。 


示例 18-16 tcp_charfinder.py: 这 是 图 18-2 所 示 会 话 在 服务 器 端的 
输出 


$ python3 tcp_charfinder.py 

Serving on ('127.0.0.1', 2323). Hit CTRL-C to stop. © 
Received from ('127.0.0.1', 62910): ‘chess black' @ 
Sent 6 results 


Received from ('127.0.0.1', 62910): 'sun' © 
Sent 10 results 

Received from ('127.0.0.1', 62910): '\xee' @ 
Close the client socket © 


@ 这 是 main 函数 的 输出 。 


© handle_queries 协 程 中 那个 while HAE — VICI ATH 
@ 那个 while (AA RER. 1 


1 在 Python 3.5 中 是 Sent 14 results。 参 见 本 小 节 开头 的 编者 注 。 编者 注 


四 用 户 按 下 CTRL-C 键 ;服务器 收 到 控制 字符 ， 关 闭会 话 。 


但 是 服务 器 仍 在 运行 ， 准 备 为 其 他 客户 端 提 
共 服 务 。 


JER, main 函数 几乎 会 立即 显示 Serving on... 消息 ， 然 后 在 调用 
loop.run_forever() 方法 时 阻塞 。 在 那 一 点 ， 控 制 权 流动 到 事件 循环 
中 ， 而 且 一 直 符 在 那里 ， 不 过 偶尔 会 回 到 handle_queries 协 程 ， 这 个 
协 程 需要 等 待 网 络 发 送 或 接收 数据 时 ， 控 制 权 又 交还 事件 循环 。 在 事件 
循环 运行 期 间 ， 只 要 有 新 客户 问 连 接 服 务 器 就 会 后 动 一 个 
handle_queries 协 程 实例 。 因 此 ， 这 个 简单 的 服务 器 可 以 并 发 处 理 多 
个 客户 端 。 出 现 KeyboardInterrupt 异常 ， 或 者 操作 系统 把 进程 杀 
死 ， 服 务 器 会 关闭 。 


tcp_charfinder.py 脚本 利用 asyncio 包 提 供 的 高 层 流 

API Chttps://docs.python.org/3/library/asyncio-stream.html) ， 有 现成 的 服 

务 器 可 用 ， 所 以 我 们 只 需 实 现 一 个 处 理 程 序 〈 普 通 的 回调 或 协 程 ) 。 此 

外 ，asyncio 包 受 Twisted 框架 中 抽象 的 传送 和 协议 启发 ， 还 提供 了 低 

层 传送 和 协议 API。 详 情 请 参见 asyncio 包 的 文档 
Chttps://docs.python.org/3/libraryasyncio-protocol.html) ， 里 面 有 一 个 使 

用 低层 API 实现 的 TCP 回 显 服务 器 。 


下 一 节 实 现 HTTP 版 字符 查找 服务 器 。 


18.6.2 ”使 用 aiohttp 包 编写 Web 服 务 器 


asyncio 版 国旗 下 载 示 例 使 用 的 aiohttp 库 也 支持 服务 器 端 HTTP， 我 
就 使 用 这 个 库 实现 了 http charfinder.py 脚本 。 图 18-3 是 这 个 简易 服务 器 
的 Web 界面 ， 显 示 搜 索 “cat face” 表 情 符号 得 到 的 结果 。 


PS p A 
e009 j Charfinder x \ + w 


(€) @ localhost:8888 /?query=cat+face @ | (Q search | ALAO = 


Examples: bismillah, black, Braille, cat, chess, circled, digit, dot, Ethiopic, face, hexagram, Malayalam, mark, operator, Roman, symbol 


cat face find | 10 matches for 'cat face’ 


U+1F431 [fj CAT FACE 

U+1F638 @& GRINNING CAT FACE WITH SMILING EYES 
U+1F639 & CAT FACE WITH TEARS OF JOY 

U+1F63A & SMILING CAT FACE WITH OPEN MOUTH 
U+1F63B & SMILING CAT FACE WITH HEART-SHAPED EYES 
U+1F63C & CAT FACE WITH WRY SMILE 

U+1F63D &§ KISSING CAT FACE WITH CLOSED EYES 
U+1F63E $ POUTING CAT FACE 

U+1F63F 县 CRYING CAT FACE 

U+1F640 & WEARY CAT FACE 


图 18-3: 浏览 器 窗口 中 显示 在 http_charfinderpy 服务 器 中 搜索 “cat 
face” 得 到 的 结果 


从、 有 些 浏览 器 显示 Unicode 字符 的 效果 比 其 他 浏览 器 好 。 图 

18-3 中 的 截图 在 OS X hi Firefox 浏览 器 中 截取 ， 我 在 Safari 中 也 得 
到 了 相同 的 结果 。 但 是 ， 运 行 在 同一 台 设 备 中 的 最 新 版 Chrome Fil 
Opera 却 不 能 显示 猫 脸 等 表情 符号 。 不 过 其 他 搜索 结果 〈 例 

如 “chess”) 正常 ， 因 此 这 可 能 是 OS 义 版 Chrome 和 Opera 的 字体 
问题 。 


我 们 先 分 析 http_charfinder.py 脚本 中 最 重要 的 后 半 部 分 : 启动 和 关闭 事 
件 循环 与 HITP 服务 器 。 参 见 示例 18-17。 


示例 18-17 http charfinder.py: main 和 init 函数 


@asyncio.coroutine 


def init(loop, address, port): © 
app = web.Application(loop=loop) @ 
app.router.add_route('GET', '/', home) © 
handler = app.make_handler() @ 
server = yield from loop.create_server(handler, 

address, port) © 
return server.sockets[@].getsockname() © 


def main(address="127.0.0.1", port=8888): 
port = int(port) 
loop = asyncio.get_event_loop() 
host = loop.run_until_complete(init(loop, address, port)) @ 
print('Serving on {}. Hit CTRL-C to stop.'.format(host) ) 
try: 
loop.run_forever() O 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 
print('Server shutting down. ') 
loop.close() 日 


if _ name_ == '_ main_ 
main(*sys.argv[1:]) 


Q init 协 程 产 出 一 个 服务 器 ， 交 给 事件 循环 驱动 。 


© aiohttp.web.Application 类 表示 Web 应 用 ...... 


@...... 通过 路 由 把 URL 模式 映射 到 处 理 函 数 上 ; 这 里 ， 把 GET / 路 由 
映射 到 home 函数 上 (参见 示例 18-18) 。 


@ app.make_handler 方法 返回 一 个 aiohttp.web.RequestHandler 
实例 ， 根 据 app 对 象 设置 的 路 由 处 理 HTTP 请 求 。 


加 create_server 方法 创建 服务 器 ， 以 handler 为 协议 处 理 程 序 ， 并 
把 服务 器 绑 定 在 指定 的 地 址 address) 和 端口 (port) 上 。 


@ 返回 第 一 个 服务 器 套 接 字 的 地 址 和 端口 。 
O 运行 init 函数 ， 局 动 服务 器 ， 获 取 服 务 器 的 地 址 和 端口 。 


O 运行 事件 循环 ;控制 权 在 事件 循环 手 上 时 ，main 函数 会 在 这 里 阻 
Æ, 


© 关闭 事件 循环 。 
我 们 已 经 熟悉 了 asyncio 包 的 API， 现 在 可 以 对 比 一 下 示例 18-17 与 前 


面 的 TCP 示例 〈 见 示例 18-15) ， 看 它们 创建 服务 器 的 方式 有 何不 同 。 


在 前 面 的 TCP 示例 中 ， 服 务 器 通过 main 函数 中 的 下 面 两 行 代码 创建 并 
排 定 运行 时 间 : 


server_coro = asyncio.start_server(handle queries, address, port, 
loop=loop) 


server = loop.run_until_complete(server_coro) 


在 这 个 HTTP 示例 中 ，init ROEE PEN TUE ERS at: 


server = yield from loop.create_server(handler, 
address, port) 


但 是 init 是 协 程 ， 驱 动 它 运 行 的 是 main 函数 中 的 这 一 


host = loop.run_until_complete(init(loop, address, port)) 


asyncio.start_server 函数 和 loop.create_ server 方法 都 是 协 
程 ， 返 回 的 结果 都 是 asyncio. Server WR. a li 
务 器 的 引用 ， 这 两 个 协 程 都 要 由 他 人 驱动 ， 完 成 运行 。 在 TCP 示例 

中 ， 做 法 是 调用 loop.run_until PARE A coro), EH} 
server_coro 是 asyncio.start_server 函数 返回 的 结果 。 在 HTTP 
示例 中 ，create_server 方法 在 init 协 程 中 的 一 个 yield from 表达 
式 里 调用 ， 而 init 协 程 则 由 main 函数 中 的 
loop.run_until_complete(init(...)) 调用 驱动 。 


我 提 到 这 一 点 是 为 了 强调 之 前 讨论 过 的 一 个 基本 事实 : 只 有 了 驱动 协 程 ， 
协 程 才能 做 事 ， 而 驱动 asyncio.coroutine 装饰 的 协 程 有 两 种 方法 ， 
要 么 使 用 yield from， 要 么 传 给 asyncio 包 中 某 个 参数 为 协 程 或 期 物 
的 函数 ， 例 如 run_until complete。 


示例 18-18 列 出 home 函数 。 根 据 这 个 HTTP 服务 器 的 配置 ，home 函数 
用 于 处 理 / GR) URL. 


示例 18-18 http charfinder.py: home 函数 


def home(request): @ 
query = request.GET.get('query', '').strip() @ 
print('Query: {!r}'.format(query) ) 
if query: 
descriptions = list(index.find_descriptions (query) ) 
res = '\n'.join(ROW_TPL.format(**vars(descr) ) 
for descr in descriptions) 
msg = index.status(query, len(descriptions) ) 
else: 
descriptions = [] 
res = '' 


msg = ‘Enter words describing characters. ' 


html = template.format(query=query, result=res, © 
message=msg) 

print('Sending {} results'.format(len(descriptions))) © 

return web.Response(content_type=CONTENT TYPE, text=html) @ 


O 一 个 路 由 处 理 函 数 ， 参 数 是 一 个 aiohttp.web.Request 实例 。 

O 获取 查询 字符 串 ， 去 掉 首 尾 的 空白 。 

O 在 服务 器 的 控制 台中 记录 查询 。 

@ 如 果 有 查询 字符 串 ， 从 索引 (index)〉 中 找到 结果 ， 使 用 HTML 表格 
中 的 行 演 染 结果 ， 把 结果 赋值 给 res 变量 ， 再 把 状态 消息 赋值 给 msg 
变量 。 

© 泻 染 HTML 页 面 。 

O 在 服务 器 的 控制 台中 记录 响应 。 

@ 构建 Response 对 象 ， 将 其 返回 。 

注意 ，home 不 是 协 程 ， 既 然 定义 体 中 没有 yield from 表达 式 ， 也 没 
必要 是 协 程 。 在 aiohttp 包 的 文档 中 ，add_route 方法 的 条 目 


Chttp://aiohttp.readthedocs.org/en/v0.14.4/web_reference.html#aiohttp.web.L 
下 面 说 道 ,“ 如 果 处 理 程序 是 普通 的 函数 ， 在 内 部 会 将 其 转换 成 协 程 ”。 


示例 18-18 中 的 home 函数 虽然 简单 ， 却 有 一 个 缺点 。home 是 普通 的 函 
数 ， 而 不 是 协 程 ， 这 一 事实 预示 着 一 个 更 大 的 问题 我 们 需要 重新 思考 
如 何 实现 Web 应 用 ， 以 获得 高 并 发 。 下 面 来 分 析 这 个 问题 。 


18.6.3 ”更 好 地 文 持 并 发 的 智能 客户 疹 


示例 18-18 中 的 home 函数 很 像 是 Django 或 Flask 中 的 视图 函数 ， 实 现 
方式 完全 没有 考虑 异步 : 获取 请 求 ， 从 数据 库 中 读 取 数据 ， 然 后 构建 响 
M, BRE HTML 页 面 。 在 这 个 示例 中 ， 存 储 在 内 存 中 的 
UnicodeNameIndex 对 象 是 “数据 库 ”。 但 是 ， 对 真正 的 数据 库 来 说 ， 应 
该 异步 访问 ， 否 则 在 等 待 数据库 查 询 结果 的 过 程 中 ， 事 件 循环 会 阻塞 。 
例如 ，aiopg 包 Chttps://aiopg.readthedocs.org/en/stable/) 提供 了 一 个 异 
步 PostgreSQL 驱动 ， 与 asyncio GRA; Aa xE yield 
From 发 送 人 查询 和 获取 结果 ， 因 此 视图 函数 的 表现 与 真正 的 协 程 一 样 。 


除了 防止 阻塞 调用 之 外 ， 高 并 发 的 系统 还 必须 把 复杂 的 工作 分 成 多 步 ， 
以 保持 敏捷 。http_charfinder.py 服务 器 表明 了 这 一 点 : 如 果 搜 索 “cjk”， 
得 到 的 结果 是 75 821 个 中 文 、 日 文 和 韩文 象形 文字 。13 此 时 ，home K 
数 会 返回 一 个 5.3MB 的 HTML 文档 ， 显 示 一 个 有 75 821 行 的 表格 。 


BEE CJK 表示 的 意思 : 不 断 增加 的 中 文 、 日 文 和 韩文 字符 。 以 后 的 Python 版 本 支持 的 
CJK 象形 文字 数量 可 能 会 比 Python 3.4 多 。 


我 在 自己 的 设备 中 使 用 命令 行 HTTP 客户 端 curl 访问 架设 在 本 地 的 
http charfinder.py 服务 器 ， 查 询 “cjk”，2 秒 钟 后 获得 响应 。 浏 览 器 要 布 
局 包含 这 么 大 一 个 表格 的 页 面 ， 用 的 时 间 会 更 长 。 当 然 ， 大 多 数 查 询 返 
回 的 响应 要 小 得 多 : 查询 “braille”* 返 回 256 行 结果 ， 页 面 大 小 为 19KB, 
在 我 的 设备 中 用 时 0.017 秒 。 可 是 ， 如 果 服 务 器 要 用 2 秒 钟 处 理 “cjk” 查 
询 ， 那 么 其 他 所 有 客户 端 都 至 少 要 等 2 秒 一 一 这 是 不 可 接受 的 。 


避免 啊 应 时 间 太 长 的 方法 是 实现 分 页 : 首次 至 多 返回 《比如 说 ) 200 
行 ， 用 户 点 击 链接 或 滚动 页 面 时 再 获取 更 多 结果 。 如 果 查 看 本 书 代 码 仓 
Æ Chttps://github.com/fluentpython/example-code) 中 的 charfinder.py 模 
块 ， 你 会 发 现 UnicodeNameIndex.find_descriptions 方法 有 两 个 可 
选 的 参数 start 和 stop， 这 是 偏 移 值 ， 用 于 支持 分 页 。 因 此 ， 我 
们 可 以 返回 前 200 个 结果 ， 当 用 户 想 查看 更 多 结果 时 ， 再 使 用 AJAX 或 
WebSockets 发 送 下 一 批 结 果 。 


实现 分 批发 送 结果 所 需 的 大 多 数 代码 都 在 浏览 器 这 一 端 ， 因 此 Google 
和 所 有 大 型 互联 网 公司 都 大 量 依赖 客户 器 代 码 构建 服务 : ARE A 
户 端 能 更 好 地 使 用 服务 顺 资 源 。 


虽然 智能 的 客户 端 甚至 对 老式 Django 应 用 也 有 帮助 ， 但 是 要 想 真 正 为 
这 种 客户 端 服 务 ， 我 们 需要 全 方位 文 持 异步 编程 的 框架 ， 从 处 理 HTTP 
请 求 和 啊 应 到 访问 数据 库 ， 全 都 文 持 异步 。 如 果 想 实现 实时 服务 ， 例 如 
游戏 和 以 WebSockets 支持 的 媒体 流 ， 那 就 尤其 应 该 这 么 做 。14 


“在 “杂谈 ”中 我 会 进一步 说 明 这 个 趋势 。 


这 里 留 一 个 练习 给 读者 : 改进 http_charfinder.py 脚本 ， 添 加 下 载 进 度 
条 。 此 外 还 有 一 个 附加 题 : 实现 Twitter 那样 的 “无 限 滚动 ”。 做 完 这 个 
练习 后 ， 我 们 对 如 何 使 用 asyncio 包 做 异步 编程 的 讨论 就 结束 了 。 


18.7 本章 小 结 


本 章 介 绍 了 在 Python 中 做 并 发 编程 的 一 种 全 新 方式 ， 这 种 方式 使 用 
yield from、 协 程 、 期 物 和 asyncio 事件 循环 。 首 先 ， 我 们 分 析 了 两 
个 简单 的 示例 一 一 两 个 旋转 指针 脚本 ， 仔 细 对 比 了 使 用 threading 模 
ERAN asyncio 包 处 理 并 发 的 异同 。 


然后 ， 本 章 讨 论 了 asyncio.Future 类 的 细节 ， 重 点 讲述 它 对 yield 
from 的 文 持 ， 以 及 与 协 程 和 asyncio.Task 类 的 关系 。 接 下 来 分 析 了 
asyncio 版 国旗 下 载 脚本 。 


然后 ， 本 章 分 析 了 Ryan Dahl 对 IO 延迟 所 做 的 统计 数据 ， 还 说 明了 阻 

喜 调 用 的 影响 。 尽 管 有 些 函 数 必然 会 阻塞 ， 但 是 为 了 让 程序 持续 运行 ， 

有 了 两 种 解决 方案 可 用 : 使 用 多 个 线程 ， 或 者 异步 调用 一 一 后 者 以 回调 或 
协 程 的 形式 实现 。 


RK, 异步 库 依赖 于 低层 线程 (直至 内 核 级 线程 》， 但 是 这 些 库 的 用 户 
无 需 创建 线程 ， 也 无 需 知道 用 到 了 基础 设施 中 的 低层 线程 。 在 应 用 中 ， 
我 们 只 需 确 保 没 有 阻 笑 的 代码 ， 事 件 循 环 会 在 背后 处 理 并 及 。 寞 步 系统 
能 避免 用 户 级 线程 的 开销 ， 这 是 它 能 比 多 线程 系统 管理 更 多 并 发 连接 的 


之 后 ， 我 们 又 回 到 下 载 国旗 的 脚本 ， 添 加 进度 条 并 处 理 错误 。 这 需要 大 
幅度 重 构 ， 特 别 是 要 把 asyncio.wait 函数 换 成 
asyncio.as_completed 函数 ， 因 此 不 得 不 把 download_many 函数 的 
大 多 数 功 能 移 到 新 添 的 downloader_coro 协 程 中 ， 这 样 我 们 才能 使 用 
yield from 从 asyncio.as_completed 函数 生成 的 多 个 期 物 中 逐个 
获得 结果 。 


然后 ， 本 章 说 明了 如 何 使 用 loop.run_in_executor 方法 把 阻塞 的 作 
业 〔 例 如 保存 文件 ) 委托 给 线程 池 做 。 


接着 ， 本 章 讨论 了 如 何 使 用 协 程 解决 回调 的 主要 问题 : 执行 分 成 多 步 的 
异步 任务 时 丢失 上 下 文 ， 以 及 缺少 处 理 错误 所 需 的 上 下 文 。 


然后 又 举 了 一 个 例子 ， 在 下 载 国旗 图 像 的 同时 获取 国家 名 称 ， 以 此 说 明 
如 何 结合 协 程 和 yield from 避免 所 谓 的 回调 地 狱 。 如 果 忽 略 yield 
from 关键 字 ， 使 用 yield from 结构 实现 异步 调用 的 多 步 过 程 看 起 来 
类 似 于 顺序 执行 的 代码 。 


本 章 最 后 两 个 示例 是 使 用 asyncio 包 实 现 的 TCP Al HTTP 服务 器 ， 用 
于 按 名 称 搜索 Unicode 字符 。 在 分 析 HTTP 服务 器 的 最 后 ， 我 们 讨论 了 
客户 端 JavaScript 对 服务 器 端 提供 高 并 发 支持 的 重要 性 。 使 用 
eae 客户 端 可 以 按 需 发 起 小 型 请 求 ， 而 不 用 下 载 较 大 的 HTML 
内 HH。 


18.8 延伸 阅读 


Python 核心 开发 者 Nick Coghlan 在 2013 年 1 月 对 “PEP 3156— 
Asynchronous IO Support Rebooted: 

the‘asyncio’Module” Chttps://www.python.org/dev/peps/pep-3156/) 草案 评 
论 如 下 : 


在 这 个 PEP 的 开头 部 分 应 该 言 简 意 赎 地 说 明 等 竺 异步 期 物 返 回 结 
的 两 个 API: 


(1) f.add_done_callback(...) 


Seg NO a a 
么 返回 结果 ， 要 么 抛 出 合适 的 异 


JEZI, 这 两 个 API 深 埋 在 众多 的 API 中 ， 而 它们 是 理解 核心 事件 循 
环 层 之 上 各 种 事物 交互 方式 的 关键 。 


1534 Á 2013 年 1 月 20 日 发 布 在 python-ideas 邮件 列表 中 的 一 个 消息 
(https//mailLpython.org/pipermail/python-ideas/2013-January/018791.html〉， 在 这 个 消息 中 ， 
Coghlan 对 PEP 3156 做 出 了 上 述评 论 。 


PEP 3156 的 作者 Guido van Rossum 没有 采纳 Coghlan 的 建议 。 实 现 PEP 
3156 的 初期 ，asyncio 包 的 文档 虽然 十 分 详细 ， 但 对 用 户 并 不 友 

ye eee ee 
文档 中 ， 只 有 “Built-in Types” — 

Chttps://docs.python. a ee ep 有 这 人 么 长 ， 而 那 一 章 内 
容 众多 ， 涵 盖 了 数字 类 型 、 序 列 类 型 、 生 成 器 、 映 射 、 集 合 、boo1、 上 
PMH a, SS. 


asyncio 包 的 文档 大 部 分 是 在 讲 概念 和 API， 其 中 夹杂 者 有 用 的 示意 图 
和 示例 ， 不 过 特别 实用 的 一 节 是 “18.5.11. Develop with 

asyncio” (https://docs.python.org/3/library/asyncio-dev.html) ，16 其 中 说 
明了 极为 重要 的 使 用 模式 。asyncio 包 的 文档 需要 用 更 多 的 内 容 来 说 明 
如 何 使 用 asyncio. 


1 目前 是 : 18.5.9. Develop with asyncio。- ”编者 注 


asyncio 包 很 新 ， 已 出 版 的 书 中 少 有 涉及 。 我 发 现 只 有 Jan Palach 写 的 
Parallel Programming with Python (Packt 出 版 社 ，2014 年 ) 一 书 中 有 一 
章 讲 到 了 asyncio， 可 惜 那 一 章 很 短 。 


不 过 ， 有 很 多 关于 asyncio 的 精彩 演讲 。 我 觉得 最 棒 的 是 Brett Slatkin 
在 蒙特 利 尔 PyCon 2014 大 会 上 发 表 的 演讲 ， 题 为 “Fan-Imn and Fan-Out: 
The Crucial Components of 

Concurrency” Chttps://speakerdeck.com/pycon2014/fan-in-and-fan-out-the- 
crucial-components-of-concurrency-by-brett-slatkin) ， 副 标题 是 “Why do 
we need Tulip? (a.k.a., PEP 3156 一 asyncio)”( 视 

Sil: https://www.youtube.com/watch?v=CWmg-jtkemY) 。 在 30 分 钟 内 ， 
Slatkin 实现 了 一 个 简单 的 Web 疏 虫 示例 ， 强 调 了 asyncio 包 的 正确 用 
法 。 身 为 观众 的 Guido van Rossum 提 到 ， 为 了 引荐 asyncio 包 ， 他 也 
写 了 一 个 Web JIE. Guido 写 的 代码 不 依赖 aiohttp 包 ， 只 用 到 了 标 
准 库 。Slatkin 还 写 了 一 篇 见解 深刻 的 文章 ， 题 为 “Python's asyncio Is for 
Composition, Not Raw 

Performance” (http://www.onebigfluke.com/2015/02/asyncio-is-for- 
composition.html) 。 


Guido van Rossum 自己 的 几 个 演讲 也 是 必 看 的 ， 包 括 在 PyCon US 2013 
上 所 做 的 主题 演讲 Chttp://pyvideo.org/video/1667/keynote-1) , LA RTE 
LinkedIn 公司 (https:/www.youtube.com/watch?v=aurOB4qYuFM) 和 
Twitter 大 学 Chttps://www.youtube.com/watch?v=1coLC-MUCJc) 所 做 的 
演讲 。 此 外 ， 还 推荐 Saul Ibarra Corretgé 的 演讲 一 一 “A Deep Dive into 
PEP-3156 and the New asyncio Module”[ (ZJ F 
Chttp://www.slideshare.net/saghul/asyncio) ， 视 频 
Chttps://www.youtube.com/watch?v=MS1L2RGKYyY ) ]。 


在 PyCon US 2013 大 会 上 ，Dino Viehland 做 了 一 场 演讲 ， 题 为 “Using 
futures for async GUI programming in Python 

3.3” Chttp://pyvideo.org/video/1762/using-futures-for-async-gul- 
programming-in-python) ， 说 明 如 何 把 asyncio 包 集 成 到 Tkinter 事件 循 
环 中 。Viehland 展示 了 在 另 一 个 事件 循环 之 上 实现 
asyncio.AbstractEventLoop 接口 的 重要 部 分 是 多 么 容易 。 他 的 代码 
使 用 Tulip 编写， 这 是 asyncio 包 添 加 到 标准 库 中 之 前 的 名 称 。 我 修改 


了 他 的 代码 ， 以 便 支 持 Python 3.4 中 的 asyncio 包 。 我 重 构 后 的 新 版 在 
GitHub 中 (https://github.com/fluentpython/asyncio-tkinter) 。 


Victor Stinner [asyncio 包 的 核心 贡献 者 ，asyncio 包 的 移植 版 
Trollius (http://trollius.readthedocs.org) 的 作者 ] 经 常 更 新 相关 资源 的 链 
接 列 表 “The new Python asyncio module aka‘tulip’” (http://haypo- 
notes.readthedocs.org/asyncio.html) 。 此 外 ， 收 集 asyncio 资源 的 还 有 
Asyncio.org 网 站 Chttp://asyncio.org/) 和 GitHub 中 的 aio-libs 组 织 
(https://github.com/aio-libs) ， 在 这 两 个 网 站 中 能 找到 8 
MySQL 和 多 种 NoSQL 数据 库 的 异步 驱动 。 我 没有 测试 过 这 些 驱 动 ， 不 
过 写作 本 书 时 ， 这 些 项 目 好 像 十 分 活跃 。 


Web 服务 将 成 为 asyncio 包 的 重要 使 用 场景 。 你 的 代码 有 可 能 要 依赖 
Andrew Svetlov 领衔 开发 的 aiohttp 库 

Chttp://aiohttp.readthedocs.org/en/) 。 你 可 能 还 想 架 设 环境 ， 测 试 错 误 处 
理 代码 ， 在 这 方面 ，Alexis Métaireau 和 Tarek Ziad6 开 发 的 Vaurien (“YE 
沌 TCP 4R”, http://vaurien.readthedocs.org/en/1.8/) 极其 有 用 。Vaurien 
是 为 Mozilla Services WH Chttps://mozilla-services.github.io/) 开发 的 ， 
用 于 在 程序 与 后 端 服务 器 〈 例 如 ， 数 据 库 和 Web 服务 提供 方 ) 之 间 的 
TCP 流量 中 引入 延迟 和 随机 错误 。 


Lik 


7 


ESE KEZA 


有 很 长 一 段 时 间 ， 大 多 数 Python EFI AA AMH EEH 2 
编程 ， 但 是 总 会 遇 到 一 个 问题 挑选 的 库 之 间 不 兼容 。Ryan Dahl 
提 到 ， Twisted # 是 Node.js 的 灵感 来 源 之 一 ; 而 在 Python 中 ， 

Tornado 拥护 使 用 协 程 做 面向 事件 编程 。 


在 JavaScript 社区 里 还 有 和 争论， 有些 人 推崇 使 用 简单 的 回调 ， 而 有 

些 人 提倡 使 用 与 回调 处 于 竞争 地 位 的 各 种 高 层 抽象 方式 。Node.js 

早期 版 本 的 API 使 用 的 是 Promise 对 象 ( 类 似 于 Python 中 的 期 

物 ) ， 但 是 后 来 Ryan Dahl 决定 统一 只 用 回调 。James Coglan iA 

为 ，Node.js 在 这 一 点 上 错过 了 大 好 民 机 
(https://blog.jcoglan.com/2013/03/30/callbacksare-imperative- 

promises-are-functional-nodes-biggest-missed-opportunity/) 。 


Python 社区 的 争论 已 经 结束 : asyncio 包 添 加 到 标准 库 中 之 后 ， 协 
程 和 期 物 被 确定 为 符合 Python 风格 的 异步 代码 编写 方式 。 此 

外 ，asyncio 包 为 异步 期 物 和 事件 循环 定义 了 标准 接口 ， 为 二 者 提 
供 了 实现 参考 。 


正如 “Python 之 禅 ” 所 说 : 
肯定 有 一 种 一 一 通常 也 是 唯一 一 种 一 一 最 佳 的 解决 方案 
不 过 这 并 不 容易 找到 ， 因 为 你 不 是 Python 之 父 


或 许 变 成 荷兰 人 才能 理解 yield from 吧 。17 对 我 这 个 巴西 人 来 
说 ， 一 开始 并 不 易于 理解 ， 不 过 一 段 时 间 之 后 我 理解 了 。 


更 重要 的 是 ， 设 计 asyncio 包 时 考虑 到 了 使 用 外 部 包 蔡 换 自 身 的 
事件 循环 ， 因 此 才 有 asyncio.get event loop 和 
set_event_loop 函数 一 一 二 者 是 抽象 的 事件 循环 策略 

API Chttps://docs.python.org/3/library/asyncio-eventloops.html#event- 
loop-policies-and-the-default-policy) 的 一 部 分 。 


Tornado 已 经 有 实现 asyncio.AbstractEventLoop 接口 的 类 
AsyncIOMainLoop Chttp://tornado.readthedocs.org/en/latest/asyncio. 
因此 在 同一 个 事件 循环 中 可 以 使 用 这 两 个 库 运 行 异 步 代 码 。 此 外 ， 
Quamash 项 目 Chttps://pypi.python.org/pypi/Quamash/) 也 很 有 趣 ， 它 

把 asyncio 包 集 成 到 Qt 事件 循环 中 ， 以 便 使 用 PyQt 或 PySide FF 

发 GUI 应用。 我 只 是 举 两 个 例子 ， 说 明 asyncio 包 能 把 面 同事 件 

的 包 集 成 在 一 起 。 


智能 的 HTTP 客户 端 ， 例 如 单 页 Web MH Cun Gmail) 或 智能 手机 
应 用 ， 需 要 快速 、 轻 量 级 的 响应 和 推送 更 新 。 鉴 于 这 样 的 需求 ， 服 
务 器 端 最 好 使 用 异步 框架 ， 不 要 使 用 传统 的 Web 框架 (如 

Django) 。 传 统 框架 的 目的 是 泻 染 完整 的 HIML 网 页 ， 而 且 不 支持 
异步 访问 数据 库 。 


WebSockets 协议 的 作用 是 为 始终 连接 的 客户 端 ( 例 如 游戏 和 流 式 应 
用 ) 提供 实时 更 新 ， 因 此 ， 高 并 发 的 异步 服务 器 要 不 间断 地 与 成 百 
EFR SF mH. asyncio 包 的 架构 能 很 好 地 支持 WebSockets， 
而 且 至 少 有 两 个 库 已 经 在 asyncio 包 的 基础 上 实现 了 WebSockets 


协议 : Autobahn|Python Chttp://autobahn.ws/python/) 和 
WebSockets Chttp://aaugustin.github.io/websockets/) 。 


“实时 Web” 的 整体 发 展 趋势 迅猛 ， 这 是 Node.js 需求 量 不 断 攀 升 的 
主要 因素 ， 也 是 Python ER AAI asyncio 靠 扰 的 重要 原 
因 。 不 过 ， 要 做 的 事 还 有 很 多 。 为 了 便于 入 门 ， 我 们 要 在 标准 库 中 
提供 异步 HTTP 服务 器 和 客户 端 API， 有 异步 数据 库 API 

3.0 Chttps://www.python.org/dev/peps/pep-0249/) , 18 以 及 使 用 
asyncio 包 构 建 的 新 数据 库 驱 动 。 


5 Node.js 相 比 ， 含 有 asyncio 包 的 Python 3.4 最 大 的 优势 是 
Python 本 身 : Python 语言 设计 良好 ， 使 用 协 程 和 和 yield from 结构 
编写 的 异步 代码 比 JavaScript 采用 的 古老 回调 易于 维护 。 而 我 们 最 
大 的 劣势 是 库 ，Python 自 带 了 很 多 库 ， 但 是 那些 库 不 文 持 异步 编 
Be. Node.js 库 的 生态 系统 丰富 ， 完 全 建构 在 异步 调用 之 上 。 但 

是 ，Python 和 Node. js 都 有 一 个 问题 ， 而 Go 和 Erlang 从 一 开始 就 
题 : 我 们 编写 的 代码 无 法 轻松 地 利用 所 有 可 用 的 CPU 
AEP 


Python 标准 化 了 事件 循环 接口 ， 还 提供 了 一 个 异步 库 ， 这 是 一 大 进 
步 ， 而 且 只 有 我 们 仁慈 的 独裁 者 能 在 众多 深入 人 心 且 高 质量 的 蔡 代 
方案 中 选择 这 种 方式 。 有 具体 实现 时 ， 他 咨询 了 多 个 重要 的 Python $+ 
步 框架 的 作者 ， 其 中 受 Glyph Lefkowitz (Twisted 的 主要 开发 者 ) 
的 影响 最 深 。 如 果 你 想 知 道 为 什么 asyncio.Future 类 与 Twisted 
中 的 Deferred 类 不 同 ， 一 定 要 阅读 Guido 在 Python-tulip 讨论 组 中 
发 布 的 一 篇 文章 ， 题 为 "Deconstructing 

Deferred” Chttps://groups.google.com/forum/#!msg/python-tulip/ut4vTG- 
08k8/PWZzUXX9HYIJ) > Guido 对 Twisted 这 个 最 古老 也 是 最 大 的 
Python 异步 框架 充满 敬意 ， 在 python-twisted 讨论 组 中 讨论 设计 方 
案 时 ， 他 甚至 说 ，“What Would Twisted Do (WWTD) ”. 19 


zW Guido van Rossum 打头 阵 ， 让 Python 以 更 好 的 姿态 应 对 当前 

的 并 发 挑战 。 若 想 精通 asyncio 包 ， 一 定 要 下 一 番 功 夫 。 可 是 ， 

如 果 你 计划 使 用 Python 编写 并 发 网 络 应 用 ， 那 束 去 寻求 至 尊 循 环 
(the One Loop) : 


至 章 循 环 驭 众生 ， 至 章 循 环 寻 众生 ， 


至 导 循 环 引 众生 ， 普 照 众生 欣欣 及。 


Python 之 父 Guido van Rossum 是 荷兰 人 。 译 者 注 


18 应 该 是 PEP 249—Python Database API Specification v2.0. 编者 注 


区 出自 Guido 于 2015 年 1 月 29 日 发 布 的 消息 Chttps//groups.google.com/forum/#!msg/python- 
tulip/pPMwts-CvUcw/eloX_n8FSPwJ) ， 然 后 Glyph 立即 回复 了 这 一 消息 。 


第 19 章 动态 属性 和 特性 


特性 至 天 重要 的 地 方 在 于 ， 特 性 的 存在 使 得 开发 者 可 以 非 第 安全 并 
ic aaa 公共 数据 属性 作为 类 的 公共 接口 的 一 部 分 开放 出 


Alex Martelli 
Python 贡献 者 和 网 书 作者 


1 (Python 技术 手册 (第 2 版 》 第 101 页 。 该 书 中 文 版 把 "property" 译 为 属性 ， 这 里 改 为 " 特 
性 ”， 其 他 内 容 与 原来 的 翻译 相同 。 PEATE ) 


在 Python 中 ， 数 据 的 属性 和 处 理 数 据 的 方法 统称 属性 attribute) 。 其 
实 ， 方 法 只 是 可 调用 的 属性 。 除 了 这 二 者 之 外 ， 我 们 还 可 以 创建 特性 
(property) ， 在 不 改变 类 接口 的 前 提 下 ， 使 用 存 取 方法 〈 即 读 值 方法 
和 设 值 方法 ) 修改 数据 属性 。 这 与 统一 访问 原则 相符 : 


不 管 服务 是 由 存储 还 是 计算 实现 的 ， 一 个 模块 提供 的 所 有 服务 都 应 
该 通过 统一 的 方式 使 用 。” 


Bertrand Meyer, Object-Oriented Software Construction, 2E, p. 57. 


除了 特性 ，Python 还 提供 了 丰富 的 API， 用 于 控制 属性 的 访问 权限 ， 以 
及 实现 动态 属性 。 使 用 点 号 访问 属性 时 《〈 如 obj.attr) ，Python 解释 
器 会 调用 特殊 的 方法 (如 getattr 和 setattr ) 计算 属性 。 
用 户 自己 定义 的 类 可 以 通过 getattr _ 方法 实现 “虚拟 属性 ”"， 当 访 
人 (如 obj.no_such_attribute) ， 即 时 计算 属性 的 
{Hi 


动态 创建 属性 是 一 种 元 编程 ， 框 架 的 作者 经 常 这 么 做 。 然 而 ， 在 Python 
中 ， 相 关 的 基础 扩 术 十 分 简单 ， 任 何人 都 可 以 使 用 ， 甚 至 在 日 党 的 数据 
转换 任务 中 也 能 用 到 。 下 面 以 这 种 任务 开局 本 章 的 话题 。 


191 使 用 动态 属性 转换 数据 


在 接 下 来 的 几 个 示例 中 ， 我 们 要 使 用 动态 属性 处 理 O'Reilly 为 OSCON 
2014 大 会 提供 的 JSON 格式 数据 源 。 示 例 19-1 是 那个 数据 源 中 的 4 个 
记录 ， 


3 关于 这 个 数据 源 及 其 使 用 规则 ， 请 阅读 “DIY: OSCON schedule” —3¢ 
(http://conferences.oreilly.com/oscon/oscon2014/public/content/schedulefeed) 。 那 个 JSON 文件 有 

744KB， 我 写作 本 书 时 还 在 网 上 (httpy//www.oreilly.com/pub/sc/osconfeed) 。 本 书 代码 仓库 中 的 

oscon-schedule/data/ 目录 里 有 个 副本 ， 文 件 名 为 osconfeed. 

json (https://github.com/fluentpython/example-code/tree/master/19-dyn-attr-prop/oscon/data ) 。 


示例 19-1 osconfeed json 文件 中 的 记录 示例 ， 节 略 了 部 分 字段 的 
内 容 


{ "Schedule": 
{ "conferences": [{"serial": 115 }], 
"events": [ 
{ "serial": 34505, 
"name": "Why Schools Don’t Use Open Source to Teach Programming", 
"event type": "40-minute conference session", 
"time start": "2014-07-23 11:30:00", 
"time_stop": "2014-07-23 12:10:00", 
"venue_serial": 1462, 
"description": "Aside from the fact that high school programming...", 
"website url": "http://oscon.com/oscon2014/public/schedule/detail/345 
"speakers": [157509], 
"categories": ["Education"] } 
l» 
"speakers": [ 
{ "serial": 157509, 
"name": "Robert Lefkowitz", 
"photo": null, 
"url": "http://sharewave.com/", 
"position": "CTO", 
"affiliation": "Sharewave", 
"twitter": "sharewaveteam", 
"bio": "Robert “r@ml° Lefkowitz is the CTO at Sharewave, a startup... 
l» 
"venues": [ 
{ "serial": 1462, 
"name": "F151", 


"category": "Conference Venues" } 


那个 JSON 源 中 有 895 条 记录 ， 示 例 19-1 只 列 出 了 4 条 。 可 以 看 出 ， 整 
个 数据 集 是 一 个 JSON 对 象 ， 里 面 有 一 个 键 ， 名 为 "Schedule"; 这 个 
键 对 应 的 值 也 是 一 个 映像 ， 有 4 个 键 : 


"conferences". "events". "Speakers" JH "venues". iX 4 个 键 对 


应 的 值 都 是 一 个 记录 列表 。 在 示例 19-1 中 ， 各 个 列表 中 只 有 一 条 记 
录 。 然 而 ， 在 完整 的 数据 集中 ， 列 表 中 有 成 百 上 于 条 记录 。 不 

iw, "conferences" 键 对 应 的 列表 中 只 有 一 条 记录 ， 如 上 述 示例 所 
示 。 这 4 个 列表 中 的 每 个 元 素 都 有 一 个 名 为 "serial" 的 字段 ， 这 是 元 
素 在 各 个 列表 中 的 唯一 标识 符 。 


我 编写 的 第 一 个 脚本 只 用 于 下 载 那个 OSCON 数据 产 。 为 了 避免 浪费 流 
量 ， 我 会 先 检查 本 地 有 没有 副本 。 这 么 做 是 合理 的 ， 因 为 OSCON 2014 
大 会 已 经 结束 ， 数 据 源 不 会 再 更 新 。 


示例 19-2 没 用 到 元 编程 ， 几 乎 所 有 代码 的 作用 可 以 用 这 一 个 表达 式 概 
fi: json.1oad(fp)。 不 过 ， 这 样 足以 处 理 那个 数据 集 
J. osconfeed.load 函数 会 在 后 面 几 个 示例 中 用 到 。 


示例 19-2 osconfeed.py: 下 载 osconfeed.json (doctest 在 示例 19-3 
中 ) 


from urllib.request import urlopen 
import warnings 

import os 

import json 


URL = 'http://www.oreilly.com/pub/sc/osconfeed' 
JSON = 'data/osconfeed.json' 


def load(): 
if not os.path.exists(JSON): 
msg = ‘downloading {} to {}'.format(URL, JSON) 
warnings.warn(msg) @ 
with urlopen(URL) as remote, open(JSON, ‘wb') as local: @ 


local.write(remote.read()) 


with open(JSON) as fp: 
return json.load(fp) © 


@ 如 果 需 要 下 载 ， 就 发 出 提醒 。 


© 在 with 语句 中 使 用 两 个 上 下 文 管理 器 (从 Python 2.7 和 Python 3.1 
起 允许 这 么 做 ) ， 分 别 用 于 读 取 和 保存 远程 文件 。 


© json.1oad 函数 解析 ISON 文件 ， 返 回 Python 原生 对 象 。 在 这 个 数 
据 源 中 有 这 几 种 数据 类 型 : dict. list, str 和 int. 


人 19-2 中 的 代码 ， 我 们 可 以 审查 数据 源 中 的 任何 字段 ， 如 示例 
19-3 所 不 。 


示例 19-3 osconfeed.py: 示例 19-2 的 doctest 


>>> feed = load() © 

>>> sorted(feed[ 'Schedule'].keys()) @ 

['conferences', ‘events', 'speakers', 'venues' | 

>>> for key, value in sorted(feed[ 'Schedule'].items()): 
print('{:3} {}'.format(len(value), key)) © 


1 conferences 
494 events 
357 speakers 
53 venues 
>>> feed[ 'Schedule']['speakers'][-1]['name'] @ 
"Carina C. Zona' 


>>> feed[ 'Schedule']['speakers'][-1]['serial'] © 
141590 


>>> feed[ 'Schedule'][ 'events'][40][ name ] 

"There *Will* Be Bugs' 

>>> feed[ 'Schedule' ]['events'][40]['speakers'] © 
[3471, 5199] 


Aad Ae FRB AI, MAETI BB 


© Hitt "Schedule" 键 中 的 4 个 记录 集合 。 


O 显示 各 个 集合 中 的 记录 数量 。 

O 深入 藤 套 的 字典 和 列表 ， 获 取 最 后 一 个 演讲 者 的 名 字 。 

O 获取 那 位 演讲 者 的 编号 。 

O 每 个 事件 都 有 一 个 "speakers ' 字段 ， 列 出 0 个 或 多 个 演讲 者 的 编 


[mj 


J o 


19.1.1 使 用 动态 属性 访问 JSON 类 数据 


示例 19-2 十 分 简单 ， 不 过 ，feed['Schedule']['events'][408] 
['name'] 这 种 句法 很 元 长 。 在 JavaScript 中 ， 可 以 使 用 
feed.Schedule.events[46].name 获取 那个 值 。 在 Python 中 ， 可 以 
实现 一 个 近似 字典 的 类 (网 上 有 大 量 实现 ) 4， 达 到 同样 的 效果 。 我 自 
己 实现 了 FrozenJSON 类 ， 比 大 多 数 实现 都 简单 ， 因 为 只 文 持 读 取 ， 即 
只 能 访问 数据 。 不 过 ， 这 个 类 能 递归 ， 自 动 处 理 散 套 的 映射 和 列表 。 


4 最 常 提 到 的 一 个 实现 是 AttrDict (https://pypi.python.org/pypiattrdict〉， 还 有 一 个 实现 能 快速 创 
22 RE AY ER addict Chttps://pypi.python.org/pypi/addict) 。 


示例 19-4 演示 FrozenJSON 类 的 用 法 ， 源 代码 在 示例 19-5 F. 


示例 19-4 “示例 19-5 定义 的 FrozenJSON 类 能 读 取 属 性 ， 如 
name， 还 能 调用 方法 ， 如 .keys() 和 .items() 


>>> from osconfeed import load 

>>> raw_feed = load() 

>>> feed = FrozenJSON(raw_feed) © 

>>> len(feed.Schedule.speakers) @ 

357 

>>> sorted(feed.Schedule.keys()) © 

['conferences', 'events', ‘speakers', ‘venues’ ] 

>>> for key, value in sorted(feed.Schedule.items()): @ 
print('{:3} {}'.format(len(value), key)) 


1 conferences 
494 events 
357 speakers 

53 venues 


>>> feed.Schedule.speakers[-1].name © 
"Carina C. Zona' 

>>> talk = feed.Schedule.events[ 40] 
>>> type(talk) © 

<class ‘explore@.FrozenJSON' > 

>>> talk.name 

"There *Will* Be Bugs' 

>>> talk.speakers @ 

[3471, 5199] 

>>> talk.flavor © 

Traceback (most recent call last): 


KeyError: 'flavor' 


@ ARENA ZARA raw_feed， 创 建 一 个 FrozenJSON 实 
例 。 


© FrozenJSON 实例 能 使 用 属性 表示 法 遍历 藤 套 的 字典 ; 这 里 ， 我 们 获 
取 演 讲 者 列表 的 元 素数 量 。 


© 也 可 以 使 用 底层 字典 的 方法 ， 例 如 .keys()， 获 取 记 录 集 合 的 名 
称 。 


O 使 用 items() 方法 获取 各 个 记录 集合 及 其 内 容 ， 然 后 显示 各 个 记录 
集合 中 的 元 素数 量 。 


加 列表， 例如 feed.Schedule.speakers， 仍 是 列表 ; 但 是 ， 如 果 里 
面 的 元 素 是 映射 ， 会 转换 成 FrozenJSON 对 象 。 


O events 列表 中 的 40 号 元 素 是 一 个 JSON 对 象 ， 现 在 则 变 成 一 个 
FrozenJSON 实例 。 


@ 事件 记录 中 有 一 个 speakers 列表 ， 列 出 演讲 者 的 编号 。 
O 读 取 不 存在 的 属性 会 抛 出 KeyError 异常 ， 而 不 是 通常 抛 出 的 


AttributeError 异常 。 


FrozenJSON 类 的 关键 是 ”getattr 方法。 我 们 在 10.5 WH Vector 
示例 中 用 过 这 个 方法 ， 那 时 用 于 通过 字母 获取 Vector 对 象 的 分 量 〈 例 
如 v.x、v.y、Vv.z) 。 我 们 要 记 住 重要 的 一 点 ， 仅 当 无 法 使 用 常规 的 方 


式 获取 属性 〈( 即 在 实例 、 类 或 超 类 中 找 不 到 指定 的 属性 ) ， 解 释 器 才 会 
调用 特殊 的 ”getattr _ Wik. 


示例 19-4 的 最 后 一 行 揭 露 了 这 个 实现 的 一 个 小 问题 ， 理 论 上 ， 党 试 读 
取 不 存在 的 属性 应 该 抛 出 AttributeError 异常 。 其 实 ， 一 开始 我 对 这 
个 异常 做 了 处 理 ， 但 是 ”getattr ”方法 的 代码 量 增加 了 一 倍 ， 而 且 
il 了 我 最 想 展示 的 重要 逻辑 ， 因 此 为 了 教学 ， 后 来 我 把 那 部 分 代码 去 


如 示例 19-5 tax, FrozenJSON 类 只 有 两 个 方法 (init 和 
__getattr__) 和 一 个 实例 属性 data。 因 此 ， 尝 试 获 取 其 他 属性 会 
触发 解释 器 调用 _getattr _ 方法 。 这 个 方法 首先 查看 self. data 
字典 有 没有 指定 名 称 的 属性 (不 是 键 ) ， 这 样 FrozenJSON 实例 便 可 以 
处 理 字 典 的 所 有 方法 ， 例 如 把 items 方法 委托 给 

self. data.items() 方法 。 如 果 self. data 没有 指定 名 称 的 属 
te, WA getattr__ 方法 以 那个 名 称 为 键 ， 从 self. data 中 获取 
一 个 元 素 ， 传 给 FrozenJSON.build 方法 。 这 样 就 能 深入 JSON 数据 的 
co 使 用 类 方法 build JER ERE MAA FrozenJSON 
实例 。 


示例 19-$ ”explore0.py: 把 一 个 JSON 数据 集 转换 成 一 个 峙 和 套 着 
FrozenJSON 对 象 、 列 表 和 简单 类 型 的 FrozenJSON 对 象 


from collections import abc 


class FrozenJSON: 
""" 一 个 只 读 接口 ， 使 用 属性 表示 法 访问 JSON 类 对 象 


def _init (self, mapping): 
self. data = dict(mapping) © 


def _ getattr (self, name): @ 
if hasattr(self. data, name): 
return getattr(self. data, name) © 
else: 
return FrozenJSON.build(self. data[name]) @ 


@classmethod 
def build(cls, obj): © 


if isinstance(obj, abc.Mapping): © 
return cls(obj) 
elif isinstance(obj, abc.MutableSequence): @ 
return [cls.build(item) for item in obj] 
else: O 
return obj 


@ 使 用 mapping 参数 构建 一 个 字典 。 这 么 做 有 两 个 目的 : (1) 确保 传 入 
(或 者 是 能 转换 成 字典 的 对 象 ) ; (2) 安全 起 见 ， 创 建 一 个 副 
四 仅 当 没有 指定 名 称 (name) 的 属性 时 才 调 用 getattr__ 方法 。 


© 如 果 name 是 实例 属性 ”data 的 属性 ， 返 回 那个 属性 。 调 用 keys 


等 方法 就 是 通过 这 种 方式 处 理 的 。 


@ 否则 ， 从 self. data 中 获取 name 键 对 应 的 元 素 ， 返 回调 用 
FrozenJSON. build() 方法 得 到 的 结果 。5 


5 这 一 行 中 的 self. data[name] 表达 式 可 能 抛 出 KeyError 异常 。 我 们 应 该 处 理 这 个 异常 ， 
抛 出 AttributeError 异常 ， 因 为 这 才 是 ”getattr ”方法 应 该 抛 出 的 异常 种 类 。 建 议 勤奋 
的 读者 实现 错误 处 理 代码 ， 当 作 一 个 练习 。 


O 这 是 一 个 备 选 构造 方法 ，@classmethod 装饰 器 经 常 这 么 用 。 
@ WER obj 是 映射 ， 那 就 构建 一 个 FrozenJSON 对 象 。 


@ 如 果 是 MutableSequence 对 象 ， 必 然 是 列表 ,“ 因此 ， 我 们 把 obj 
中 的 每 个 元 素 递归 地 传 给 .build() 方法 ， 构 建 一 个 列表 。 


na 


6 数据 源 是 JSON 格式 ， 而 在 JSON 中 ， 只 有 字典 和 列表 是 集合 类 型 。 


O 如 果 既 不 是 字典 也 不 是 列表 ， 那 么 原封 不 动 地 返回 元 素 。 


注意 ， 我 们 没有 绥 存 或 转换 原始 数据 源 。 在 欠 代 数据 源 的 过 程 中 ， 磐 套 
的 数据 结构 不 断 被 转换 成 FrozenJSON 对 象 。 这 么 做 没 问题 ， 因 为 数据 
集 不 大 ， 而 且 这 个 脚本 只 用 于 访问 或 转换 数据 。 


从 随机 源 中 生成 或 仿效 动态 属性 名 的 脚本 都 必须 处 理 一 个 问题 ， 原 始 数 
据 中 的 键 可 能 不 适合 作为 属性 名 。 下 一 节 处 理 这 个 问题 。 


19.1.2 ”处 理 无 效 属性 名 


FrozenJSON 类 有 个 缺陷 : 没有 对 名 称 为 Python 关键 字 的 属性 做 特殊 处 
理 。 比 如 说 像 下 面 这 样 构建 一 个 对 象 : 


>>> grad = FrozenJSON({'name': ‘Jim Bo', "class': 1982}) 
此 时 无 法 读 取 grad.class 的 值 ， 因 为 在 Python 中 class 是 保留 字 : 


>>> grad.class 
File "<stdin>", line 1 


grad.class 


SyntaxError: invalid syntax 
当然 ， 可 以 这 么 做 : 


>>> getattr(grad, ‘class') 
1982 


但 是 ，FrozenJSON 类 的 目的 是 为 了 便于 访问 数据 ， 因 此 更 好 的 方法 是 
检查 传 给 FrozenJSON. init _ 方法 的 映射 中 是 否 有 键 的 名 称 为 天 键 
字 ， 如 果 有 ， 那 么 在 键 名 后 加 上 _， 然 后 通过 下 述 方 式 读 取 : 


>>> grad.class_ 
1982 


为 此 ， 我 们 可 以 把 示例 19-5 中 只 有 一 行 代码 的 init _ 方法 改 成 示 
例 19-6 中 的 版 本 。 


示例 19-6 explorel.py: 在 名 称 为 Python 关键 字 的 属性 后 面 加 上 _ 


def _ init__(self, mapping): 
self. data = {} 
for key, value in mapping.items(): 
if keyword.iskeyword(key): © 


key += [ 
self. data[key] = value 


@ keyword.iskeyword(...) 正 是 我 们 所 需 的 函数 ， 为 了 使 用 它 ， 必 
须 导入 keyword 模块 ; 这 个 代码 片段 没有 列 出 导入 语句 。 


如 果 JSON 对 象 中 的 键 不 是 有 效 的 Python 标识 符 ， 也 会 遇 到 类 似 的 问 


jel: 


>>> x = FrozenJSON({'2be':'or not'}) 
>>> x.2be 
File "<stdin>", line 1 


x.2be 
N 


SyntaxError: invalid syntax 


这 种 有 问题 的 键 在 Python 3 中 易于 检测 ， 因 为 str 类 提供 的 
s.isidentifier() 方法 能 根据 语言 的 语法 判断 s 是 否 为 有 效 的 Python 
标识 符 。 但 是 ， 把 无 效 的 标识 符 变 成 有 效 的 属性 名 却 不 容易 。 对 此 ， 有 
两 个 简单 的 解决 方法 ， 一 个 是 抛 出 异常 ， 另 一 个 是 把 无 效 的 键 换 成 通用 
名 称 ， 例 如 attr_6、attr_1， 等 等 。 为 了 简单 起 见 ， 我 将 忽略 这 个 问 
题 。 


对 动态 属性 的 名 称 做 了 一 些 处 理 之 后 ， 我 们 要 分 析 FrozenJSON 类 的 另 
一 个 重要 功能 一 一 类 方法 build 的 逻辑 。 这 个 方法 把 舱 套 结构 转换 成 
FrozenJSON 实例 或 FrozenJSON 实例 列表 ， 因 此 __getattr_ 方法 
使 用 这 个 方法 访问 属性 时 ， 能 为 不 同 的 值 返 回 不 同类 型 的 对 象 。 


除了 在 类 方法 中 实现 这 样 的 迎 辑 之 外 ， 还 可 以 在 特殊 的 __new__ 方法 
中 实现 ， 如 下 一 市 所 述 。 


19.1.3 使 用 _new_ 方法 以 灵活 的 方式 创建 对 象 


我 们 通常 把 _ init _ 称 为 构造 方法 ， 这 是 从 其 他 语言 借鉴 过 来 的 术 
语 。 其 实 ， 用 于 构建 实例 的 是 特殊 方法 _new”: 这 是 个 类 方法 (使 用 
特殊 方式 处 理 ， 因 此 不 必 使 用 @classmethod 装饰 器 ) ， 必 须 返 回 一 个 
实例 。 返 回 的 实例 会 作为 第 一 个 参数 C self) 传 给 ”init Ù 


法 。 因 为 调用 __init__ 方法 时 要 传 入 实例 ， 而 且 蔡 止 返 回 任何 值 ， 所 
A init 方法 其 实 是 “初始 化 方法 "。 真 正 的 构造 方法 是 __new_。 
我 们 几乎 不 需要 上 自己 编写 __new__ 方法 ， 因 为 从 object 类 继承 的 实现 
己 经 足够 了 。 


刚才 说 明 的 过 程 ， 即 从 new ”方法 到 _init 方法， 是 最 常见 
的 ， 但 不 是 唯一 的 。__new__ 方法 也 可 以 返回 其 他 类 的 实例 ， 此 时 ， 解 
释 器 不 会 调用 __init__ Wik. 


也 就 是 说 ，Python 构建 对 象 的 过 程 可 以 使 用 下 述 伪 代码 概括 : 


# 构建 对 象 的 伪 代 码 
def object_maker(the_class, some_arg): 
new_object = the class. new (some arg) 
if isinstance(new_object, the_class): 
the class. init (new object, some_arg) 


return new object 


# 下 述 两 个 语句 的 作用 基本 等 效 
x = Foo('bar') 
x = object_maker(Foo, 'bar') 


示例 19-7 是 FrozenJSON 类 的 男 一 个 版 本 ， 把 之 前 在 类 方法 build 中 
的 逻辑 移 到 了 new 方法 中 。 


示例 19-7 explore2.py: 使 用 _new ”方法 取代 build 方法 ， 构 
建 可 能 是 也 可 能 不 是 FrozenJSON 实例 的 新 对 象 


from collections import abc 


class FrozenJSON: 
""" 一 个 只 读 接口 ， 使 用 属性 表示 法 访问 JSON 类 对 象 


def _new_(cls, arg): © 
if isinstance(arg, abc.Mapping): 
return super()._new_ (cls) @ 
elif isinstance(arg, abc.MutableSequence): © 
return [cls(item) for item in arg] 
else: 


return arg 


def _ init__(self, mapping): 
self. data = {} 
for key, value in mapping.items(): 
if iskeyword(key): 
key += '_' 
self. data[key] = value 


def _ getattr (self, name): 
if hasattr(self. data, name): 
return getattr(self. data, name) 
else: 
return FrozenJSON(self.__data[name]) @ 


@  new_ 是 类 方法 ， 第 一 个 参数 是 类 本 身 ， 余 下 的 参数 与 _ init __ 
方法 一 样 ， 只 不 过 没有 self。 


O 默认 的 行为 是 委托 给 超 类 的 ”new _ 方法 。 这 里 调用 的 是 object 


基 类 的 new _ 方法 ， 把 唯一 的 参数 设 为 FrozenJSON。 
O new 方法 中 余下 的 代码 与 原先 的 build 方法 完全 一 样 。 


四 之前， 这 里 调用 的 是 FrozenJSON.build 方法 ， 现 在 只 需 调 用 
FrozenJSON 构造 方法 。 


new 方法 的 第 一 个 参数 是 类 ， 因 为 创建 的 对 象 通常 是 那个 类 的 实 
例 。 所 以 ， 在 FrozenJSON. new ”方法 

H, super(). new (cls) 表达 式 会 调用 

object. new (FrozenJSON), mi object 类 构建 的 实例 其 实 是 
FrozenJSON 实例 ， 即 那个 实例 的 __class _ 属性 存储 的 是 
FrozenJSON 类 的 引用 。 不 过 ， 真 正 的 构建 操作 由 解释 器 调用 C 语言 实 
现 的 object._new _ 方法 执行 。 


OSCON 的 JSON 数据 源 有 一 个 明显 的 缺点 : 索引 为 40 的 事件 ， 即 名 为 
‘There *Will* Be Bugs' 的 那个 ， 有 两 位 演讲 者 ，3471 和 5199， 

但 却 不 容易 找到 他 们 ， 因 为 提供 的 是 编号 ， 而 Schedule. speakers 列 
表 没 有 使 用 编号 建立 索引 。 此 外 ， 每 条 事件 记录 中 都 有 venue_serial 
字段 ， 存 储 的 值 也 是 编号 ， 但 是 如 果 想 找到 对 应 的 记录 ， 那 就 要 线性 搜 


索 Schedule.venues FI. HE FRS A, VAM, OME 
动 获取 所 链接 的 记录 。 


19.1.4 ”使 用 shelve 模 块 调整 OSCON 数 据 源 的 结构 


标准 库 中 有 个 shelve OET) 模块 ， 这 名 字 听 起 来 怪 怪 的 ， 可 是 如 果 
KMŽ pickle COK) 是 Python 对 象 序列 化 格式 的 名 字 ， 还 是 在 那个 格 
式 与 对 象 之 间 相 互 转换 的 某 个 模块 的 名 字 ， 束 会 觉得 以 shelve 命名 是 
合理 的 。 泡 菜 坛子 摆 放 在 架子 上 ， 因 此 shelve 模块 提供 了 pickle F 
MJI ZK. 

shelve.open 高 阶 函 数 返 回 一 个 shelve.Shelf 实例 ， 这 是 简单 的 键 
(ET RAGE, Aa A dbm 模块 支持 ， 具 有 下 述 特点 。 


e shelve.Shelf 是 abc.MutableMapping 的 子 类 ， 因 此 提供 了 处 
理 映射 类 型 的 重要 方法 。 


。 此 外 ，shelve.Shelf 类 还 提供 了 几 个 管理 1O 的 方法 ， 如 sync 
和 close; 它 也 是 一 个 上 下 文 管理 占 。 


。 只 要 把 新 值 赋予 键 ， 就 会 保存 键 和 值 。 
。 键 必须 是 字符 串 。 
。 值 必须 是 pickle 模块 能 处 理 的 对 象 。 


shelve Chttps://docs.python.org/3/library/shelve.html) ~ dbm Chttps://docs 
和 pickle 模块 Chttps://docs.python.org/3/library/pickle.html) 的 详细 用 
法 和 注意 事项 参见 文档 。 现 在 值得 关注 的 是 ，shelve 模块 为 识别 
OSCON 的 日 程 数据 提供 了 一 种 简单 有 效 的 方式 。 我 们 将 从 JSON 文件 
中 读 取 所 有 记录 ， 将 其 存在 一 个 shelve.Shelf 对 象 中 ， 键 由 记录 类 型 
和 编号 组 成 (例如 ，'event.33956' 或 'speaker.3471') ， 而 值 是 
我 们 即将 定义 的 Record 类 的 实例 。 


实例 19-8 是 schedulel.py 脚本 的 doctest， 使 用 shelve 模块 处 理 数 据 
源 。 奎 想 以 交互 式 方式 测试 ， 要 执行 python -i schedulel.py 命令 
运行 脚本 ， 启 动 加 载 了 schedulel 模块 的 控制 台 。 主 要 工作 由 


load_db 函数 完成 : 调用 osconfeed.load 方法 〈 在 示例 19-2 中 定 
义 ) 读 取 JSON 数据 ， 把 通过 db 传 入 的 Shelf 对 象 中 的 各 条 记录 存储 
为 一 个 个 Record 实例 。 这 样 处 理 之 后 ， 获 取 演 讲 者 的 记录 就 容易 了 ， 
例如 speaker = db['speaker.3471']. 


示例 19-8 测试 schedulel.py 脚本 〈 见 示例 19-9) 提供 的 功能 


>>> import shelve 

>>> db = shelve.open(DB_ NAME) © 

>>> if CONFERENCE not in db: @ 
load db(db) © 


>>> speaker = db['speaker.3471'] © 

>>> type(speaker) © 

<class 'schedule1.Record'> 

>>> speaker.name, speaker.twitter © 
(‘Anna Martelli Ravenscroft', ‘annaraven' ) 
>>> db.close() @ 


@ shelve.open 函数 打开 现 有 的 数据 库 文 件 ， 或 者 新 建 一 个 。 


@ 判断 数据 库 是 否 填 充 的 简便 方法 是 ， 检 查 某 个 已 知 的 键 是 否 存在 ; 
这 里 检查 的 键 是 conference.115， 即 conference 记录 (只 有 一 个 ) 
的 键 。 


“也 可 以 使 用 len(db) 判断 ， 不 过 ， 如 果 是 大 型 dbm 数据 库 ， 那 就 很 耗费 时 间 。 


O 如 果 数 据 库 是 空 的 ， 那 就 调用 load_db(db )， 加 载 数 据 。 
@ 获取 一 条 speaker 记录 。 
O 它 是 示例 19-9 中 定义 的 Record 类 的 实例 。 


@ 各 个 Record 实例 都 有 一 系列 自 定 义 的 属性 ， 对 应 于 底层 ISON 记录 
里 的 字段 。 


O 一 定 要 记得 关闭 shelve.Shelf 对 象 。 如 果 可 以 ， 使 用 with 块 确保 
Shelf 对 象 会 关闭 。8 


Sdoctest 有 个 突出 的 弱点 : 无 法 正确 地 设置 资源 并 保证 将 其 销毁 。 我 使 用 py.test 为 


schedule py 脚本 写 了 很 多 测试 ， 在 示例 A-12 中 。 


schedule1.py 脚本 的 代码 在 示例 19-9 中 。 


示例 19-9 schedulel.py: 访问 保存 在 shelve.Shelf 对 象 里 的 
OSCON 日 程 数据 


import warnings 


import osconfeed @ 


DB NAME = ‘data/schedule1_db' 
CONFERENCE = ‘'conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self. dict .update(kwargs) @ 


def load db(db): 
raw data = osconfeed.load() © 
warnings.warn('loading ' + DB_NAME) 
for collection, rec list in raw_data['Schedule'].items(): © 
record type = collection[:-1] © 
for record in rec_list: 
key = '{}.{}'.format(record type, record['serial']) © 
record[ 'serial'] = key 
db[key] = Record(**record) © 


@ 加 载 示 例 19-2 中 的 osconfeed.py 模块 。 


O 这 是 使 用 关键 字 参 数 传 入 的 属性 构建 实例 的 第 用 简便 方式 〈 详 情 参 
见 下 文 ) 。 


O 如 果 本 地 没有 副本 ， 从 网 上 下 载 JSON 数据 源 。 
@ 迭代 集合 (例如 'conferences'、'events'， 等 等 ) 。 


@ record type 的 值 是 去 掉 尾部 's' 后 的 集合 名 〈 即 把 'events' 变 
成 "event ' ) 。 


@ 使 用 record_type I 'serial' 字段 构成 key. 

@ it ‘serial’ 字段 的 值 设 为 完整 的 键 。 

@ 构建 Record 实例 ， 存 储 在 数据 库 中 的 key 键 名 下 。 

Record. init_ _ 方法 展示 了 一 个 流行 的 Python 技巧 。 我 们 知道 ， 对 
RAJ dict ”属性 中 存储 着 对 象 的 属性 一 一 前 提 是 类 中 没有 声明 


”slots 属性， 如 9.8 节 所 述 。 因 此 ， 更 新 实例 的 “dict_ 属性 ， 
把 值 设 为 一 个 映射 ， 能 快速 地 在 那个 实例 中 创建 一 堆 属性 。” 


?顺便 说 一 下 ，2001 年 Alex Martelli “The simple but handy'collector of a bunch of named 
stuff’class "ik 75 Chttp://code.activestate.com/recipes/52308-the-simple-but-handy-collector-of-a- 
bunch-of-named/) 中 分 享 这 个 技巧 时 使 用 的 类 名 是 Bunch。 


iN 我 不 会 重 述 19.1.2 节 讨 论 的 细节 ， 不 过 要 知道 ， 在 某 些 应 用 
中 ，Record 类 可 能 要 处 理 不 能 作为 属性 名 使 用 的 键 。 


示例 19-9 中 定义 的 Record 类 太 简 单 了 ， 因 此 你 可 能 会 问 ， 为 什么 之 前 
没 用 ， 而 是 使 用 更 复杂 的 FrozenJSON 类 。 原 因 有 两 个 。 第 

—, FrozenJSON 类 要 递归 转换 般 套 的 映射 和 列表 ; 而 Record 类 不 需 
要 这 么 做 ， 因 为 转换 好 的 数据 集中 没有 般 套 的 映射 和 列表 ， 记 录 中 只 有 
字符 串 、 整 数 、 字 符 串 列表 和 整数 列表 。 第 二 ，Frozen]JSON 类 要 访问 
AY data 属性 〈 值 是 字典 ， 用 于 调用 keys 等 方法 ) ， 而 现在 我 
们 也 不 需要 这 么 做 了 。 


` Python 标准 库 中 至 少 有 两 个 与 Record 类 似 的 类 ， 其 实例 可 以 

有 任意 个 属性 ， 由 传 给 构造 方法 的 关键 字 参 数 构建 

一 一 multiprocessing.Namespace 类 |[ 文档 
(https://docs.python.org/3/library/multiprocessing.html? 

highlight=namespace#namespaceobjects)， 源 码 
(https://hg.python.org/cpython/file/50d581f69a73/Lib/multiprocessing/man 

和 argparse.Namespace 类 [文档 
Chttps://docs.python.org/3/library/argpa- 

rse.html#argparse.Namespace) , WAS 

(https://hg.python.org/cpython/file/50d58 1f69a73/Lib/argparse.py#11196) ] 


我 之 所 以 自己 实现 Record， 是 为 了 说 明 一 个 重要 的 做 法 : 在 
init 方法 中 更 新 实例 的 __dict__ 属性 。 


像 上 面 那样 调整 日 程 数 据 集 之 后 ， 我 们 可 以 扩展 Record 类 ， 让 它 提供 
一 个 有 用 的 服务 : 自动 获取 event 记录 引用 的 venue 和 speaker id 
录 。 这 与 Django ORM 访问 models .ForeignKey 字段 时 所 做 的 事 类 
似 : 得 到 的 不 是 键 ， 而 是 链接 的 模型 对 象 。 在 下 一 个 示例 中 ， 我 们 要 使 
用 特性 来 实现 这 个 服务 。 


19.1.5 ”使 用 特性 获取 链接 的 记录 

下 一 个 版 本 的 目标 是 ， 对 于 从 Shelf 对 象 中 获取 的 event 记录 来 说 ， 

读 取 它 的 venue 或 speakers 属性 时 返回 的 不 是 编号 ， 而 是 完整 的 记录 
对 象 。 用 法 如 示例 19-10 中 的 交互 代码 片段 所 示 。 


示例 19-10 摘自 schedule2.py 脚本 的 doctest 


>>> DbRecord.set_db(db) © 

>>> event = DbRecord.fetch('event.33950') @ 

>>> event 

<Event ‘There *Will* Be Bugs'> 

>>> event.venue @ 

<DbRecord serial='venue.1449'> 

>>> event.venue.name © 

"Portland 251' 

>>> for spkr in event.speakers: © 
print('{@.serial}: {@.name}'.format(spkr) ) 


speaker.3471: Anna Martelli Ravenscroft 
speaker.5199: Alex Martelli 


@ DbRecord 类 扩展 Record 类 ， 添 加 对 数据 库 的 支持 : 为 了 操作 数据 
库 ， 必 须 为 DbRecord 提供 一 个 数据 库 的 引用 。 


© DbRecord. fetch 类 方法 能 获取 任何 类 型 的 记录 。 


OER, event 是 Event 类 的 实例 ， 而 Event 类 扩展 DbRecord 类 。 


@ event.venue 返回 一 个 DbRecord 实例 。 


O 现在 ， 想 找 出 event. venue 的 名 称 就 容易 了 。 这 种 自动 取 值 是 这 个 
示例 的 目标 。 


@ iA VIER event .speakers 列表 ， 获 取 表 示 各 位 演讲 者 的 
DbRecord 对 象 。 


图 19-1 绘 出 了 本 市 要 分 析 的 几 个 类 。 


Record 


init _ 方法 与 schedulel.py 脚本 〈 见 示例 19-9) 中 的 一 样 ; 为 
了 辅助 测试 ， 增 加 了 eq 方法 。 


DbRecord 


Record 类 的 子 类 ， 添 加 了 __db 类 属性 ， 用 于 设置 和 获取 db 属 
性 的 set_db 和 get_db 静态 方法 ， 用 于 从 数据 库 中 获取 记录 的 fetch 
类 方法 ， 以 及 辅助 调试 和 测试 的 __repr__ 实例 方法 。 


Event 


DbRecord 类 的 子 类 ， 添 加 了 用 于 获取 所 链接 记录 的 venue 和 
speakers 属性 ， 以 及 特殊 的 __repr_ 方法 。 


iis oe ee 


int 
— eq _ 


set QD 
t 
t 


et_db {staticmethod} 4 


get db {staticmethod} 
fetch {classmethod} 
repr 


| Event | 
venue {property} 
speakers {propert 


图 19-1: 改进 的 Record 类 和 两 个 子 类 (DbRecord 和 Event) 的 
UML 类 图 


DbRecord.__db 类 属性 的 作用 是 存储 打开 的 shelve.Shelf 数据 库 引 
用 ， 以 便 在 需要 使 用 数据 库 的 DbRecord. fetch 方法 及 Event .venue 
和 Event.speakers 属性 中 使 用 。 我 把 db 设 为 私有 类 属性 ， 然 后 定 


SOY ERE IN BHE TTA A BOE TIE, DARGA) itt __db 属性 的 值 。 基 
于 一 个 重要 的 原因 ， 我 没有 使 用 特性 去 管理 “db 属性 : 特性 是 用 于 管 
理 实例 属性 的 类 属性 。1 


Stack Overflow 中 有 个 题 为 “Class-levelread only properties in Python” 的 问题 

(http://stackoverflow.com/questions/1735434/class-level-read-only-properties-in-python〉， 为 类 中 的 
只 读 属 性 提供 了 解决 方案 ， 其 中 包括 Alex Martelli 提供 的 一 个 方案 。 这 些 方案 要 用 到 元 类 ， 因 
此 学 习 那 些 方案 之 前 可 能 要 先 读本 书 第 21 章 。 


本 节 的 代码 在 本 书 仓库 Chttps://github.com/fluentpython/example-code) 里 
的 schedule2.py 模块 中 。 这 个 模块 有 100 多 行 ， 因 此 我 会 分 成 几 部 分 分 
析 s 


schedule2.py 脚本 的 前 几 个 语句 在 示例 19-11 F. 


示例 19-11 schedule2.py: 号 入 模块 ,定义 常 量 和 增强 的 Record 
H 


入 


import warnings 
import inspect © 


import osconfeed 
DB NAME = ‘data/schedule2 db' @ 


CONFERENCE = ‘'conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self. dict .update(kwargs) 


def eq _ (self, other): © 
if isinstance(other, Record): 
return self. dict == other. dict _ 
else: 
return NotImplemented 


Q inspect 模块 在 load_db 函数 中 使 用 《参见 示例 19-14) 。 


O 因为 要 存储 几 个 不 同类 的 实例 ， 所 以 我 们 要 创建 并 使 用 不 同 的 数据 
库 文件 ; 这 里 不 用 示例 19-9 中 的 "schedule1l db'， 而 是 使 用 


"schedule2_db'. 


© ed _ 方法 对 测试 有 重大 帮助 。 


Rs 


在 Python 2 中 ， 只 有 “新 式 ” 类 支持 特 ' tee 在 Python 2 中 定义 新 式 类 
直接 或 间接 继承 object 类 。 示 例 19-11 中 的 Record 

是 一 个 继承 体系 的 基 类 ， 用 到 了 特性 ; 因此， 在 Python 2 中 声明 
Record 类 时 ， 开 头 要 这 么 写 :1 


class Record(object): 


# 余下 的 代码 


“在 Python 3 中 明确 指明 继承 object 类 没有 错 ， 但 是 多 余 ， 因 为 现在 所 有 类 都 是 新 式 的 。 此 
例 说 明 ， 与 过 去 告别 能 让 语言 更 简洁 ， 如 果 要 在 Æ Python 2 和 Python 3 中 运行 同一 段 代 码 ， 应 该 
显 式 继承 object 类 。 


接 下 来 ， oy 脚本 定义 了 两 个 类 一 一 一 个 自 定义 的 异常 类 型 和 
DbRecord 类 ， 参 见 示例 19-12。 


示例 19-12 schedule2.py: MissingDatabaseError 类 和 
DbRecord 类 


class MissingDatabaseError(RuntimeError); 


”需要 数据 库 但 没有 指定 数据 库 时 抛 出 。， 


class DbRecord(Record): @ 
__db = None © 


@staticmethod @ 
def set_db(db): 
DbRecord. db = db © 


@staticmethod © 
def get_db(): 
return DbRecord. db 


@classmethod @ 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] © 
except TypeError: 
if db is None: © 
msg = "database not set; call '{}.set db(my db)'" 
raise MissingDatabaseError(msg.format(cls.__name_)) 
else: 四 
raise 


def _repr_ (self): 
if hasattr(self, 'serial'): © 
cls name = self. class ._ name _ 
return '<{} serial={!r}>'.format(cls name, self.serial) 
else: 
return super()._ repr () @ 


O 上 自 定 义 的 异常 通常 是 标志 类 ， 没 有 定义 体 。 写 一 个 文档 字符 串 ， 说 
明 异 常 的 用 途 ， 比 只 写 一 个 pass 语句 要 好 。 


© DbRecord 类 扩展 Record 类 。 


Q db 类 属性 存储 一 个 打开 的 shelve .Shelf 数据 库 引 用 。 
O set_db 是 静态 方法 ， 以 此 强调 不 管 调用 多 少 次 ， 效 果 始 终 一 样 。 


© 即使 调用 Event.set_db(my_db), __db 属性 仍 在 DbRecord 类 中 
设置 。 


O get_db 也 是 静态 方法 ， 因 为 不 管 怎样 调用 ， 返 回 值 始终 是 
DbRecord. db 引用 的 对 象 。 


O fetch 是 类 方法 ， 因 此 在 子 类 中 易于 定制 它 的 行为 。 
O 从 数据 库 中 获取 ident 键 对 应 的 记录 。 


© 如 果 捕 获 到 TypeError 异常 ， 而 且 db 变量 的 值 是 None， 抛 出 自 定 
义 的 异常 ， 说 明 必 须 设置 数据 库 。 


和 否则， 重新 抛 出 TypeError 异常 ， 因 为 我 们 不 知道 怎么 处 理 。 
O 如 果 记 录 有 serial 属性 ， 在 字符 串 表 示 形 式 中 使 用 。 
否则， 调用 继承 的 __repr Frid. 


现在 到 这 个 示例 的 重要 部 分 了 一 一 Event 类 ， 如 示例 19-13 所 示 。 


示例 19-13 schedule2.py: Event 类 


class Event(DbRecord): © 


@property 

def venue(self): 
key = 'venue.{}'.format(self.venue_serial) 
return self. class .fetch(key) @ 


@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): © 
spkr_serials = self. dict ['speakers'] © 
fetch = self. class .fetch 
self. speaker objs = [fetch('speaker.{}'.format(key) ) 
for key in spkr_serials] 
return self. speaker objs @ 


def _repr_ (self): 
if hasattr(self, 'name'): © 
cls_name = self. class ._ name _ 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super().__repr_() © 


@ Event 类 扩展 DbRecord 类 。 


@ 在 venue 特性 中 使 用 venue_serial 属性 构建 key， 然 后 传 给 继承 
El] DbRecord 类 的 fetch 类 方法 〈 详 情 参见 下 文 ) 。 


© speakers 特性 检查 记录 是 否 有 _speaker_objs 属性 。 


O 如 果 没 有 ， 直 接 从 ”dict ”实例 属性 中 获取 'speakers' 属性 的 


值 ， 防 止 无 限 递 归 ， 因 为 这 个 特性 的 公开 名 称 也 是 speakers. 
@ 获取 fetch 类 方法 的 引用 〈 稍 后 会 说 明 这 么 做 的 原因 ) 。 
@ 使 用 fetch 获取 speaker 记录 列表 ， 然 后 赋值 给 


self. _speaker_objs. 

© 返回 前 面 获取 的 列表 。 

O 如 果 记 录 有 name 属性 ， 在 字符 串 表 示 形 式 中 使 用 。 
否则 ， 调 用 继承 的 __repr_ 方法 。 


在 示例 19-13 中 的 venue 特性 里 ， 最 后 一 行 返 回 的 是 

self. class .fetch(key)， 为 什么 不 直接 使 用 
self.fetch(key) 呢 ? 对 这 个 OSCON 数据 源 来 说 ， 可 以 使 用 后 者 ， 
因为 事件 记录 都 没有 'fetch' 键 。 哪 怕 只 有 一 个 事件 记录 有 名 为 
'fetch' 的 键 ， 那 么 在 那个 Event 实例 中 ，self.fetch 获取 的 是 
fetch 字段 的 值 ， 而 不 是 Event 继承 自 DbRecord 的 fetch 类 方法 。 
这 个 缺陷 不 明显 ， 很 容易 被 测试 包 略 ; 在 生产 环境 中 ， 如 果 会 场 或 演讲 
者 记录 链接 到 那个 事件 记录 ， 获 取 事 件 记录 时 才 会 暴露 出 来 。 


从、 从 数据 中 创建 实例 属性 的 名 称 时 肯定 有 可 能 会 引入 缺陷 ， 
为 类 属性 (例如 方法 ) 可 能 被 遮盖 ， 或 者 由 于 意外 敌 盖 现 有 的 实例 
属性 而 丢失 数据 。 这 个 问题 可 能 是 Python 字典 默认 不 能 像 
JavaScript 对 象 那 样 访问 的 主要 原因 。 


如 果 Record 类 的 行为 更 像 映 射 ， 可 以 把 动态 的 ”getattr _ 方法 换 

成 动态 的 getitem _ 方法 ， 这 样 就 不 会 出 现 由 于 宪 新 或 遮 新 而 引起 
的 缺陷 了 。 使 用 映射 实现 Record 类 或 许 更 符合 Python 风格 。 可 是 ， 如 
果 我 采用 那 种 方式 ， 束 发 掘 不 了 动态 属性 编程 的 技巧 和 陷阱 了 。 

这 个 示例 最 后 的 代码 是 重 写 的 1oad_db 函数 ， 如 示例 19-14。 


示例 19-14 schedule2.py: load_db 函数 


def load_db(db): 


raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record type = collection[:-1] © 
cls name = record type.capitalize() @ 
cls = globals().get(cls_name, DbRecord) © 
if inspect.isclass(cls) and issubclass(cls, DbRecord): @ 
factory = cls © 
else: 
factory = DbRecord © 
for record in rec_list: @ 
key = '{}.{}'.format(record_type, record['serial']) 
record[ 'serial'] = key 
db[key] = factory(**record) © 


@ HRT, 45 schedulel.py 脚本 《〈 见 示例 19-9) 中 的 load_db 函数 一 
样 。 


四 把 record type 变量 的 值 首 字母 变 成 大 写 ( 例 如， 把 'event' 变 成 


'Event' ) ， 获 取 可 能 的 类 名 。 


O 从 模块 的 全 局 作用 域 中 获取 那个 名 称 对 应 的 对 象 ， 如 果 找 不 到 对 
象 ， 使 用 DbRecord。 


O 如 果 获 取 的 对 象 是 类 ， 而 且 是 DbRecord 的 子 类 ...... 


@...... 把 对 象 赋值 给 factory ea. Alt, factory 的 值 可 能 是 
DbRecord 的 任何 一 个 子 类 ， 具 体 的 类 取决 于 record_type 的 值 。 


O 否则， 把 DbRecord 赋值 给 factory 变量 。 
O 这 个 for 循环 创建 key， 然 后 保存 记录 ， 这 与 之 前 一 样 ， 不 过 ...... 


@...... 存储 在 数据 库 中 的 对 象 由 factory MW, factory 可 能 是 
DbRecord 类 ， 也 可 能 是 根据 record type 的 值 确定 的 某 个 子 类 。 


注意 ， 只 有 事件 类 型 的 记录 有 自 定 义 的 类 一 一 Event。 不 过 ， 如 果 定 义 
了 Speaker 或 Venue X, load_db 函数 构建 和 保存 记录 时 会 自动 使 用 
这 两 个 类 ， 而 不 会 使 用 默认 的 DbRecord 类 。 


本 章 目 前 所 举 的 示例 是 为 了 展示 如 何 使 用 基本 的 工具 ， 如 
_ getattr _ 方法 、hasattr 函数 、getattr 图 数 、@property 装饰 
器 和 _ dict_ 属性， 来 实现 动态 属性 。 


特性 经 钊 用 于 把 公开 的 属性 变 成 使 用 读 值 方法 和 设 值 方法 管理 的 属性 ， 
有 在 不 影响 客户 端 代码 的 前 提 下 实施 业务 规则 ， 如 下 一 节 所 述 。 


19.2 使 用 特性 验证 属性 


目前 ， 我 们 只 介绍 了 如 何 使 用 @property 装饰 右 实 现 只 读 特 性 。 本 节 
要 创建 一 个 可 读 写 的 特性 。 


19.2.1 LineItem 类 第 1 版 : 表示 订单 中 商品 的 类 
假设 有 个 销售 散装 有 机 食物 的 电 商 应 用 ， 客 户 可 以 按 重量 订购 坚果 、 干 
果 或 杂粮 。 在 这 个 系统 中 ， 每 个 订单 中 都 有 一 系列 商品 ， 而 每 个 商品 都 
可 以 使 用 示例 19-15 中 的 类 表示 。 


示例 19-15 bulkfood vl: 最 简单 的 LineItem 类 


class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 


self.price = price 


subtotal(self): 
return self.weight * self.price 


这 个 类 很 精简 ， 不 过 或 许 太 简单 了 。 示 例 19-16 揭示 了 一 个 问题 。 
示例 19-16 重量 为 负 值 时 ， 金 额 小 计 为 负 值 


>>> raisins = LineItem('Golden raisins', 10, 6.95) 
>>> raisins.subtotal() 
69.5 


>>> raisins.weight = -20 # 无 效 输入 
>>> raisins.subtotal() # 无 效 输出 
-139 .0 


这 个 示例 像 玩 具 一 样 ， 但 是 没有 想象 中 的 那么 好 玩 。 下 面 是 亚马逊 早期 
的 真实 故事 。 


我 们 发 现 顾客 买书 时 可 以 把 数量 设 为 负数 ! 然后 ， 我 们 把 金额 打 到 
顾客 的 信用 卡 上 ， 苛 苗 等 得 他 们 把 书 寄 出 〈( 想 得 美 〉。 


Jeff Bezos 
亚马逊 创始 人 和 CEO 


1 摘自 《华尔街 日 报 》 的 文章 ，“Birth of a Salesman” (2011 年 10 月 15 
H, http://www.wsj.com/articles/SB 10001424052970203914304576627102996831200) ， 这 是 Jeff 
Bezos 的 原 话 。 


这 个 问题 怎么 解决 呢 ? 我 们 可 以 修改 LineItem 类 的 接口 ， 使 用 读 值 方 
法 和 设 值 方法 管理 weight 属性 。 这 是 Java 采用 的 方式 ， 这 里 也 完全 可 
行 。 


re 如 果 能 直接 设 定 商品 的 weight 属性 ， 显 得 更 自然 。 此 外 ， 系 统 
能 在 生产 环境 中 ， 而 其 他 部 4 分 已 经 直接 访问 item.weight 了 。 此 
符合 Python 风格 的 做 法 是 ， 把 数据 属性 换 成 特性 。 


19.2.2 LineItem 类 第 2 版 : 能 验证 值 的 特性 


实现 特性 之 后 ， 我 们 可 以 使 用 读 值 方法 和 设 值 方法 ， 但 是 LineItem 类 
的 接口 保持 不 变 〈 即 ， 设 置 LineItem 对 象 的 weight 属性 依然 写成 


raisins.weight = 12) 。 


示例 19-17 列 出 可 读 写 的 weight 特性 的 代码 。 


示例 19-17 bulkfood v2.py: 定义 了 weight 特性 的 LineItem 类 


class LineItem: 


def _init__(self, description, weight, price): 
self.description = description 
self.weight = weight © 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@property @ 
def weight(self): © 


return self. weight @ 


@weight.setter © 
def weight(self, value): 
if value > ð: 
self. weight = value © 
else: 
raise ValueError('value must be > 6') @ 


@ 这 里 已 经 使 用 特性 的 设 值 方法 了 ， 确 保 所 创建 实例 的 weight 属性 不 
能 为 负 值 


@ @property 装饰 读 值 方法 。 
O 实现 特性 的 方法 ， 其 名 称 都 与 公开 属性 的 名 称 一 样 _ weight。 


O 真正 的 值 存储 在 私有 属性 __weight 中 。 


O 被 装饰 的 读 值 方法 有 个 .setter 属性 ， 这 个 属性 也 是 装饰 器 ;这 个 
装饰 器 把 读 值 方法 和 设 值 方法 绑 定 在 一 起 。 


O 如 果 值 大 于 零 ， 设 置 私有 属性 _weight. 
否则 ， 抛 出 ValueError 异常 。 
注意 ， 现 在 不 能 创建 重量 为 无 效 值 的 LineItem 对 象 : 


>>> walnuts = LineItem('walnuts', ©, 10.00) 
Traceback (most recent call last): 


ValueError: value must be > @ 


现在 ， 我 们 禁止 用 户 为 weight 属性 提供 负 值 或 零 。 虽 然 买 家 通常 不 能 
设置 商品 的 价格 ， 但 是 工作 人 员 可 能 犯错 ， 应 用 程序 也 可 能 有 缺陷 ， 从 
而 导致 LineItem 对 象 的 price 属性 为 负 值 。 为 了 防止 出 现 这 种 情况 ， 
E e Be eee nie ee 


还 记得 第 14 章 引 述 Paul Graham 的 那 句 话 吗 ? 他 说 :“ 当 我 在 自己 的 程 


序 中 发 现 用 到 了 模式 ， 我 觉得 这 就 表明 某 个 地 方 出 错 了 。” 去 除 重复 的 
方法 是 抽象 。 抽 象 特性 的 定义 有 两 种 方式 ， 使 用 特性 工厂 函数 ， 或 者 使 
用 描述 符 类 。 后 者 更 灵活 ， 第 20 章 会 全 面 讨论 。 其 实 ， 特 性 本 身 就 是 
使 用 错过 符 美 实现 的 。 不 过 ， 这 里 我 们 要 继续 探讨 特性 ， 实 现 一 个 特性 
工厂 函数 。 


但 是 ， 在 实现 特性 工厂 函数 之 前 ， 我 们 要 深入 理解 特性 。 


19.3 ”特性 全 解析 


里 然 内 置 的 property 经 常用 作 厂 饰 器 ， 但 它 其 实 是 一 个 类 。 在 Python 

中 ， 函 数 和 类 通常 可 以 互 换 ， 因 为 二 者 都 是 可 调用 的 对 象 ， 而 且 没 有 实 

例 化 对 象 的 new 运算 符 ， 所 以 调用 构造 方法 与 调用 工厂 函数 没有 区 别 。 

ee ARE BC TA PR, a A LA 
MAE o 


property 构造 方法 的 完整 签名 如 下 : 


property(fget=None, fset=None, fdel=None, doc=None) 


所 有 参数 都 是 可 选 的 ， 如 果 没 有 把 函数 传 给 某 个 参数 ， 那 么 得 到 的 特性 
对 象 就 不 多 许 执行 相应 的 操作 。 


property 类 型 在 Python 2.2 中 引入 ， 但 是 直到 Python 2.4 才 出 现 @ 装饰 

as 因此 有 那么 几 年 ， 知 想 定义 特性 ， 则 只 能 把 存 取 函数 传 给 前 两 
E 

不 使 用 装饰 器 定义 特性 的 “经 典 ?句法 如 示例 19-18 所 示 。 


示例 19-18 ”bulkfood v2b.py: 效果 与 示例 19-17 一 样 ， 只 不 过 没 
使 用 装饰 器 


class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


def get_weight(self): © 
return self. weight 


def set_weight(self, value): @ 
if value > ð: 
self. weight = value 
else: 
raise ValueError('value must be > @') 


weight = property(get_weight, set_weight) © 


@ 普通 的 读 值 方法 。 
O 普通 的 设 值 方法 。 


O 构建 property 对 象 ， 然 后 赋值 给 公开 的 类 属性 。 

某 些 情况 下 ， 这 种 经 典 形式 比 装 饰 器 句法 好 ; 稍 后 讨论 的 特性 工厂 函数 
就 是 一 例 。 但 是 ， 在 方法 众多 的 类 定义 体 中 使 用 装饰 器 的 话 ， 一 眼 就 能 
看 出 哪些 是 读 值 方 法 ， 哪 些 是 设 值 方法 ， 而 不 用 按照 惯例 ， 在 方法 名 的 
前 面 加 上 get 和 set. 


类 中 的 特性 能 影响 实例 属性 的 寻找 方式 ， 而 一 开始 这 种 方式 可 能 会 让 人 
觉得 意外 。 下 一 节 会 详细 说 明 。 


19.3.1 ”特性 会 覆盖 实例 属性 

特性 都 是 类 属性 ， 但 是 特性 管理 的 其 实 是 实例 属性 的 存 取 

9.9 节 说 过 ， 如 果实 例 和 所 属 的 类 有 同名 数据 属性 ， 那 么 实例 属性 会 履 
a CB PRU EE) 类 属性 一 一 至 少 通过 那个 实例 读 取 属性 时 是 这 样 。 示 例 
19-19 阐明 了 这 一 点 。 


示例 19-19 ”实例 属性 遮盖 类 的 数据 属性 


>>> class Class: #@ 
data = ‘the class data attr' 
@property 
def prop(self): 
return ‘the prop value’ 


>>> obj = Class() 
>>> vars(obj) #@ 


{} 

>>> obj.data # © 

"the class data attr' 

>>> obj.data = 'bar' # © 
>>> vars(obj) # O 
{'data': 'bar'} 

>>> obj.data # O 

"bar' 


>>> Class.data # Q 
"the class data attr' 


2 定义 Class 类 ， 这 个 类 有 两 个 类 属性 : data 数据 属性 和 prop 特 


© vars 函数 返回 obj 的 _dict 属性 ， 表 明 没 有 实例 属性 。 
© 读 取 obj.data， 获 取 的 是 Class .data 的 值 。 

四 为 obpj .data 赋值 ， 创 建 一 个 实例 属性 。 

O 审查 实例 ， 查 看 实例 属性 。 


O 现在 读 取 obj .data， 获 取 的 是 实例 属性 的 值 。 从 obj 实例 中 读 取 属 
性 时 ， 实 例 属性 data 会 遮盖 类 属性 data. 


@ Class.data 属性 的 值 完好 无 损 。 


下 面 尝 试 覆盖 obj 实例 的 prop 特性 。 接 着 前 面 的 控制 台 会 话 ， 输 入 示 
例 19-20 中 的 代码 。 


示例 19-20 ”实例 属性 不 会 遮盖 类 特性 (接续 示例 19-19) 


>>> Class.prop # © 

<property object at 0x1072b74@8> 
>>> obj.prop #@ 

"the prop value’ 

>>> obj.prop = 'foo' # © 
Traceback (most recent call last): 


AttributeError: can't set attribute 
>>> obj.__dict__['prop'] = 'foo' #@ 
>>> vars(obj) # O 


{ 'data': 'bar','prop': 'foo'} 
>>> obj.prop # O 

"the prop value’ 

>>> Class.prop = 'baz' # Q 
>>> obj.prop # O 

"foo' 


@ 直接 从 Class 中 读 取 prop 特性 ， 获 取 的 是 特性 对 象 本 身 ， 不 会 运行 
特性 的 读 值 方法 。 


© 读 取 obj. prop 会 执行 特性 的 读 值 方法 。 

O 尝试 设置 prop 实例 属性 ， 结 果 失 败 。 

O 但 是 可 以 直接 把 'prop' 存 入 obj. dict 。 

O 可 以 看 到 ，obj 现在 有 两 个 实例 属性 : data 和 prop. 


O 然而 ， 读 取 obj .prop 时 仍 会 运行 特性 的 读 值 方法 。 特 性 没 被 实例 属 


O it Class.prop 特性 ， 销 毁 特 性 对 象 。 


@ 现在 ，obj .prop 获取 的 是 实例 属性 。Class .prop 不 是 特性 了 ， 
此 不 会 再 敌 盖 obj. prop. 


最 后 再 举 一 个 例子 ， 为 Class 类 新 添 一 个 特性 ， 禾 新 实例 属性 。 示 例 
19-21 接续 示例 19-20。 


示例 19-21 新 添 的 类 特性 遮盖 现 有 的 实例 属性 〈 接 续 示 例 19- 
20) 


>>> obj.data # © 
'bar ' 

>>> Class.data # 加 
'the class data attr' 


>>> Class.data = property(lambda self: 'the "data" prop value') # © 
>>> obj.data # © 

"the "data" prop value’ 

>>> del Class.data # © 

>>> obj.data # O 


"bar' 


@ obj .data 获取 的 是 实例 属性 data. 


© Class.data 获取 的 是 类 属性 data. 

© (tHE EA tt Class.data. 

@ HÆ, obj.data # Class .data 特性 遮盖 了 。 

O 删除 特性 。 

O 现在 恢复 原样 ，obj .data 获取 的 是 实例 属性 data. 

本 节 的 主要 观点 是 ，obj.attr 这 样 的 表达 式 不 会 从 obj 开始 寻找 
attr， 而 是 从 obj. class 开始， 而且 ， 仅 当 类 中 没有 名 为 attr 
的 特性 时 ，Python 才 会 在 obj 实例 中 寻找 。 这 条 规则 不 仅 适 用 于 特性 ， 
还 适用 于 一 整 类 描述 符 一 一 绑 盖 型 描述 符 (overriding descriptor) 。 第 
20 BSH Hi ea, AGI IRSA, REVERSE Ae m Fh 
符 。 

现在 回 到 特性 。 各 种 Python 代码 单元 (模块 、 函 数 、 类 和 方法 ) 都 可 以 
有 文档 字符 串 。 下 一 节 说 明 如 何 把 文档 依附 到 特性 上 。 

19.3.2 ”特性 的 文档 


控制 台中 的 help() 函数 或 IDE 等 工具 需要 显示 特性 的 文档 时 ， 会 从 特 
性 的 “doc _ 属性 中 提取 信息 。 


如 琳 使 用 经 典 调用 句法 ， 为 property 对 象 设置 文档 字符 串 的 方法 是 传 
入 doc 参数 : 


weight = property(get_weight, set_weight, doc='weight in kilograms ) 


使 用 装饰 器 创建 property 对 象 时 ， 读 值 方法 (有 @property Ah Zs 
的 方法 ) 的 文档 字符 串 作 为 一 个 整体 ， 变 成 特性 的 文档 。 几 19-2 显示 


的 是 从 示例 19-22 里 的 代码 中 生成 的 帮助 界面 。 


eoo 3. Python 


| Lontra:metaprog luciano$ python3 -i doc_property.py 
>>> helpCFoo.bar)|] eoo 3. less 
|Help on property: 
eoo 3. Python. 
The bar attribute lontra:metaprog luciano$ python3 -i doc_property.py 
>>> help(Foo.bar) eoo 3. less 


Help on class Foo in module __main__: 
>>> help(Foo)ff 


class Foo(builtins.object) 
| Data descriptors defined here: 


aa 
dictionary for instance variables (if defined) 


_-_weakref__ 
list of weak references to the object (if defined) 


y 


BD 


bar 
The bar attribute 


“gp 


图 19-2: 在 Python 控制 台中 执行 help(Foo.bar) 和 help(Foo) 命 
令 时 的 截图 ; 源码 在 示例 19-22 中 


示例 19-22 ”特性 的 文档 
class Foo: 


@property 

def bar(self): 
"''The bar attribute''' 
return self. dict__['bar'] 


@bar.setter 
def bar(self, value): 
self. dict__['bar'] = value 


至 此 ， 我 们 介绍 了 特性 的 重要 知识 。 下 面 回 过 头 来 解决 前 面 遇 到 的 问 
题 : 保护 LineItem 对 象 的 weight 和 price 属性 ， 只 人 允许 设 为 大 于 零 
的 值 ， 但 是 ， 不 用 手动 实现 两 对 几乎 一 样 的 读 值 方法 和 设 值 方法 。 


19.4 ”定义 一 个 特性 工厂 函数 


我 们 将 定义 一 个 名 为 quantity 的 特性 工厂 函数 ， 取 这 之 个 名 字 是 因为 ， 

在 这 个 应 用 中 要 管理 的 属性 表示 不 能 为 负数 或 零 的 量 。 示 例 19-23 是 

LineItem 类 的 简洁 版 ， 用 到 了 quantity 特性 的 两 个 实例 :一 个 用 于 
管理 weight 属性 ， 男 一 个 用 于 管理 price 属性 。 


示例 19-23 bulkfood v2prop.py: 使 用 特性 工厂 函数 quantity 


class LineItem: 
weight = quantity('weight') © 
price = quantity('price') @ 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price @ 


@ 使 用 工厂 函数 把 第 一 个 自 定 义 的 特性 weight 定义 为 类 属性 。 

O 第 二 次 调用 ， 构 建 妃 一 个 自 定 义 的 特性 ，price。 

全 这 里 ， 特 性 已 经 激活 ， 确 保 不 能 把 weight 设 为 负数 或 零 。 

@ 这 里 也 用 到 了 特性 ， 使 用 特性 获取 实例 中 存储 的 值 。 

前 文 说 过 ， 特 性 是 类 属性 。 构 建 各 个 quantity 特性 对 象 时 ， 要 传 入 


LineItem 实例 属性 的 名 称 ， 让 特性 管理 。 可 惜 ， 这 一 行 要 两 次 输入 单 
词 weight: 


weight = quantity('weight' ) 


这 里 很 难 避 免 重 复 输 入 ， 因 为 特性 根本 不 知道 要 绑 定 哪个 类 属性 名 。 


住 ， 赋值 语句 的 右边 先 计 算 ， 因 此 调用 quantity() 时 ，weight 类 属 
性 还 不 存在 。 


\ GHAR AR BEE quantity * 特性 ， HERTHA IBA 那 
么 对 元 编程 来 说 是 个 挑战 。 第 20 章 ARN 介绍 一 种 变通 方法 ， 真 正 的 
解决 万 法 在 第 21 草 说 明 ， 因 为 要 么 得 使 用 类 装饰 器 ， 要 么 得 使 用 
TUR © 


示例 19-24 列 出 quantity 特性 工厂 函数 的 实现 。” 


了 这 段 代码 改编 自 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版， 中 文 版 》 一 
书 中 的 “9.21 避免 出 现 重 复 的 属性 方法 ”一 节 。 


示例 19-24 bulkfood v2prop.py: quantity 特性 工厂 函数 


def quantity(storage name): @ 


def qty_getter(instance): @ 
return instance. dict [storage name] © 


def qty_setter(instance, value): @ 
if value > ð: 
instance. dict [storage name] = value © 
else: 
raise ValueError('value must be > @') 


return property(qty_getter, qty_setter) © 


@ storage name 参数 确定 各 个 特性 的 数据 存储 在 哪儿 ;对 weight 特 
性 来 说 ， 存 储 的 名 称 是 "weight '。 


© qty_getter 函数 的 第 一 个 参数 可 以 命名 为 self， 但 是 这 么 做 很 奇 
怪 ， 因 为 qty_getter 函数 不 在 类 定义 体 中 ; instance 指 代 要 把 属性 
存储 其 中 的 LineItem 实例 。 


© qty_getter 引用 了 storage_name， 把 它 保存 在 这 个 函数 的 闭 包 
里 ; 值 直接 从 instance. dict _ 中 获取 ， 为 的 是 跳 过 特性 ， 防 止 无 
限 递归 。 


O x XM qty_setter 函数 ， 第 一 个 参数 也 是 instance. 
O 值 直 接 存 到 instance. dict _ 中 ， 这 也 是 为 了 跳 过 特性 。 
O 构建 一 个 自 定 义 的 特性 对 象 ， 然 后 将 其 


示例 19-24 中 值得 仔细 分 析 的 代码 是 与 storage_name 变量 相关 的 部 
分 。 使 用 传统 方式 定义 特性 时 ， 用 于 存储 值 的 属性 名 硬 编 码 在 读 值 方法 
和 设 值 方法 中 。 但 是 ， 这 里 的 qty_getter 和 qty_setter 函数 是 通用 
的 ， 要 依靠 storage_name 变量 判断 从  dict__ 中 获取 哪个 属性 ， 或 
者 设置 哪个 属性 。 每 次 调用 quantity 工厂 函数 构建 属性 时 ， 都 要 把 
storage_name 参数 设 为 独一无二 的 值 。 


在 工厂 函数 的 最 后 一 行 ， 我 们 使 用 property 对 象 包 装 qty_getter 和 
qty_setter 函数 。 需 要 运行 这 两 个 图 数 时 ， 它 们 会 从 财 包 中 读 取 
确定 从 哪里 获取 属性 的 值 ， 或 者 在 哪里 存储 属性 的 


在 示例 19-25 中 ， 我 创建 并 审查 了 一 个 LineItem 示例 ， 说 明 存 储 值 的 
是 哪个 属性 。 


示例 19-25 bulkfood v2prop.py: quantity 特性 工厂 函数 


>>> nutmeg = LineItem('Moluccan nutmeg', 8, 13.95) 
>>> nutmeg.weight, nutmeg.price © 
(8, 13.95) 


>>> sorted(vars(nutmeg).items()) @ 
[('description', 'Moluccan nutmeg’), ('price', 13.95), (‘weight', 8)] 


@ 通过 特性 读 取 weight 和 price， 这 会 遮盖 同名 实例 属性 。 
ail vars 函数 审查 nutmeg 实例 ， 查 看 真正 用 于 存储 值 的 实例 属 


注意 ， 工 厂 函 数 构建 的 特性 利用 了 19.3.1 节 所 述 的 行为 : weight 特性 
覆盖 了 weight 实例 属性 ， 因 此 对 self weight 或 nutmeg.weight 的 
每 个 引用 都 由 特性 函数 处 理 ， 只 有 直接 存 取 dict_ _ 属性 才能 跳 过 特 
性 的 处 理 逻 辑 。 


示例 19-25 中 的 代码 有 点 难 理解 ， 不 过 够 简洁 ， 与 示例 19-17 中 使 用 装 
饰 器 声明 读 值 方法 和 设 值 方法 的 代码 行 数 一 样 ， 但 是 那里 只 定义 了 
weight 特性 。 示 例 19-23 中 定义 的 LineItem 类 没有 干扰 人 的 读 值 方 
法 和 设 值 方法 ， 看 起 来 舒服 多 了 。 


在 真实 的 系统 中 ， 分 散在 多 个 类 中 的 多 个 字段 可 能 要 做 同样 的 验证 ， 此 
时 最 好 把 quantity 工厂 函数 放 在 实用 工具 模块 中 ， 以 便 午 复 使 用 。 最 
终 可 能 要 重 构 那个 简单 的 工矿 函数 ， 改 成 更 易 扩 展 的 描述 符 类 ， 然 后 使 
用 专门 的 子 类 执行 不 同 的 验证 。 在 第 20 章 中 ， 我 们 会 这 么 做 。 


下 面 要 分 析 删 除 属性 的 问题 ， 以 此 结束 对 特性 的 讨论 。 


19.5 处理 属性 删除 操作 


学 过 Python 教程 ， 我 们 知道 ， 对 象 的 属性 可 以 使 用 del 语句 删除 : 


del my_object.an attribute 


其 实 ， 使 用 Python 编程 时 不 种 删除 属性 ， 通 过 特性 删除 属性 更 少见 。 但 
xe, Python 文 持 这 么 做 ， 我 可 以 虚构 一 个 示例 ， 演 示 这 种 处 理 方式 。 


定义 特性 时 ， 可 以 使 用 @my_propety.deleter 装饰 器 包装 一 个 方法 ， 
负责 删除 特性 管理 的 属性 。 下 面 竞 现 承诺 ， 虚 构 一 个 示例 ， 说 明 如 何 定 
义 特性 删 值 方法 ， 如 示例 19-26 所 示 。 


示例 19-26 blackknightpy: REKA EK (ERX) PRE 
衣 骑 士 角色 


class BlackKnight: 


def _ init__(self): 
self.members = ['an arm', ‘another arm', 
"a leg', ‘another leg' | 
self.phrases = ["'Tis but a scratch.", 
"It's just a flesh wound.", 
"T'm invincible!", 
"All right, we'll call it a draw."] 


@property 

def member(self): 
print('next member is:') 
return self.members[ 0] 


@member .deleter 

def member(self): 
text = 'BLACK KNIGHT (loses {})\n-- {}' 
print(text.format(self.members.pop(@), self.phrases.pop(@))) 


blackknight.py 脚本 的 doctest 在 示例 19-27 中 。 


示例 19-27 blackknight.py: 示例 19-26 的 doctest《〈 黑 衣 骑 士 从 不 
屈服 ) 


>>> knight = BlackKnight() 

>>> knight .member 

next member is: 

"an arm' 

>>> del knight.member 

BLACK KNIGHT (loses an arm) 

-- 'Tis but a scratch. 

>>> del knight.member 

BLACK KNIGHT (loses another arm) 
-- It's just a flesh wound. 

>>> del knight.member 

BLACK KNIGHT (loses a leg) 

-- I'm invincible! 

>>> del knight.member 

BLACK KNIGHT (loses another leg) 
-- All right, we'll call it a draw. 


在 不 使 用 装饰 器 的 经 典 调用 句法 中 ，fdel 参数 用 于 设置 删 值 函数 。 例 
W, Æ BlackKnight 类 的 定义 体 中 可 以 像 下 面 这 样 创建 member 特 
性 : 


member = property(member_getter, fdel=member_deleter) 


如 果 不 使 用 特性 ， 还 可 以 实现 低层 特殊 的 __delattr__ 方法 处 理 删 除 
属性 的 操作 ， 参 见 19.6.3 节 。 留 给 喜欢 拖延 的 读者 一 个 练习 : 虚构 一 个 
类 ， 定 义 _delattr Aik. 


特性 是 个 强大 的 功能 ， 不 过 有 时 更 适合 使 用 简单 的 或 底层 的 符 代 方案 。 
在 本 章 的 最 后 一 节 中 ， 我 们 将 回顾 Python 为 动态 属性 编程 提供 的 部 分 核 
心 API。 


19.6 “处理 属性 的 重要 属性 和 函数 

本 章 及 本 书 前 面 的 章节 多 次 用 到 Python 为 处 理 动 态 属 性 而 提供 的 内 置 函 
数 和 特殊 的 方法 。 这 些 函 数 和 方法 的 文档 散布 在 官方 文档 中 ， 因 此 我 专 
门 写 了 一 节 集 中 介绍 它们 。 


19.6.1 影响 属性 处 理 方式 的 特殊 属性 
后 面 几 节 中 的 很 多 函数 和 特殊 方法 ， 其 行为 受 下 述 3 个 特殊 局 性 的 
Hn] 。 


_ Class _ 


对 象 所 属 类 的 引用 ( 即 obj.__class__ 5 type(obj) 的 作用 相 
同 ) o Python 的 茶 些 特殊 方法 ， 例 如 getattr > KEXI RKI HE 
找 ， 而 不 在 实例 中 寻找 。 


_dict 
一 个 映射 ， 存 储 对 象 或 类 的 可 写 属 性 。 有 _ dict_ ”属性 的 对 象 ， 


任何 时 候 都 能 随意 设置 新 属性 。 如 果 类 有 slots ”属性 ， 它 的 实例 
可 能 没有 _ dict_ _ 属性 。 参 见 下 面 对 __slots ”属性 的 说 明 。 


_ Slots _ 


类 可 以 定义 这 个 这 属性 ， 限 制 实例 能 有 哪些 属性 。 slots _ 属性 
的 值 是 一 个 字符 串 组 成 的 元 组 ， 指 明 人 允许 有 的 属性 。14 如 果 
_slots 中 没有 ' dict '， 那 么 该 类 的 实例 没有 _ dict JR 
性 ， 实 例 只 允许 有 指定 名 称 的 属性 。 


MAlex Marte 下 指出 ，_ slots_ ”属性 的 值 虽然 可 以 是 一 个 列表 ， 但 是 最 好 始终 使 用 元 组 ， 
为 处 理 完 类 的 定义 体 之 后 再 修改 slots “列表 没有 任何 作用 ， 所 以 使 用 可 变 的 序列 容易 让 
人 误解 。 


19.6.2 ”处 理 属 性 的 内 置 函 数 


下 述 5 个 内 置 函 数 对 对 象 的 属性 做 读 、 写 和 内 省 操作 。 
dir([object]) 


列 出 对 象 的 大 多 数 属 性 。 官 方 文档 
Chttps://docs.python.org/3/library/functions.html#dir) ti, dir 函数 的 目的 
是 交互 式 使 用 ， 因 此 没有 提供 完整 的 属性 列表 ， 只 列 出 一 组 “重要 的 ” 属 
性 名 。dir 函数 能 审查 有 或 没有 dict_ ”属性 的 对 象 。dir 函数 不 会 
列 出 __dict__ 属性 本 和 映 ， 但 会 列 出 其 中 的 键 。dir 函数 也 不 会 列 出 类 
的 几 个 特殊 属性 , 例如 _mro _、_ bases 和 name 。 如 果 没 有 
指定 可 选 的 object BA, dir 函数 会 列 出 当前 作用 域 中 的 名 称 。 


getattr(object, name[, default]) 


从 object 对 象 中 获取 name 字符 串 对 应 的 属性 。 获 取 的 属性 可 能 
来 自 对 象 所 属 的 类 或 超 类 。 如 果 没 有 指定 的 属性 ，getattr 函数 抛 出 
AttributeError 异常 ， 或 者 返回 default 参数 的 值 (如果 设 定 了 这 
个 参数 的 话 ) 。 


hasattr(object, name) 


WER object 对 象 中 存在 指定 的 属性 ， 或 者 能 以 某 种 方式 〈 例 如 继 
承 ) 通过 object 对 象 获取 指定 的 属性 ， 返 回 True. X 
Chttps://docs.python.org/3/library/functions.html#hasattr) 说 道 : “这 个 函数 
的 实现 方法 是 调用 getattr(object，name) 函数 ， 看 看 是 否 抛 出 
AttributeError 异常 。” 


setattr(object, name, value) 


把 object 对 象 指定 属性 的 值 设 为 value， 前 提 是 object 对 象 能 
接受 那个 值 。 这 个 函数 可 能 会 创建 一 个 新 属性 ， 或 者 覆盖 现 有 的 属性 。 


vars([object]) 
返回 object 对 象 的 _dict _ 属性 ， 如果 实例 所 属 的 类 定义 了 
_ slots _ 属性， 实例 没有 __dict 属性， 那么 vars 函数 不 能 处 理 


那个 实例 (相反 ，dir 函数 能 处 理 这 样 的 实例 ) 。 如 果 没 有 指定 参数 ， 
那么 vars() 函数 的 作用 与 locals() 函数 一 样 : 返回 表示 本 地 作用 域 


19.6.3 ”处 理 属 性 的 特殊 方法 
在 用 户 自己 定义 的 类 中 ， 下 述 特 殊 方 法 用 于 获取 、 设 置 、 删 除 和 列 出 必 


使 用 点 号 或 内 置 的 getattr、hasattr 和 setattr 函数 存 取 属性 都 会 
触发 下 述 列表 中 相应 的 特殊 方法 。 但 是 ， 直 接 通 过 实例 的 _ dict E 
性 读 写 属性 不 会 触发 这 些 特殊 方法 一 一 如 果 需 要 ， 通 常会 使 用 这 种 方式 
跳 过 特殊 方法 。 


Python 文档 “Data model” 一 章 中 的 “3.3.9. Special method lookup” — “i 
(https://docs.python.org/3/reference/datamodel.html#special-method- 
lookup) 警告 说 : 


对 用 户 上 自己 定义 的 类 来 说， 如 果 隐 式 调 用 特殊 方法 ， 仅 当 特 殊 方 法 
在 对 象 所 属 的 类 型 上 定义 ， 而 不 是 在 对 象 的 实例 字典 中 定义 时 ， 才 
能 确保 调用 成 功 。 


也 就 是 说 ， 要 假定 特殊 方法 从 类 上 获取 ， 即 便 操 作 目 标 是 实例 也 是 如 
此 。 因 此 ， 特 殊 方法 不 会 被 同名 实例 属性 诞 辣 。 


在 下 述 示例 中 ， 假 设 有 个 名 为 Class 的 类 ，obj 是 Class 类 的 实 
例 ，attr 是 obj 的 属性 。 


不 管 是 使 用 点 号 存 取 属性 ， 还 是 使 用 19.6.2 市 列 出 的 某 个 内 置 函 数 ， 都 
会 触发 下 述 特殊 方法 中 的 一 个 。 例 如 ，obj .attr 和 getattr(obj, 
‘attr', 42) 都 会 触发 Class. getattribute (obj, ‘attr') 7 
Te 


__delattr__(self, name) 


只 要 使 用 del 语句 删除 属性 ， 就 会 调用 这 个 方法 。 例 如 ，del 
obj .attr 语句 触发 Class. delattr (obj, ‘attr') 方法 。 


_dir (self) 


把 对 象 传 给 dir 函数 时 调用 ， 列 出 属性 。 例 如 ，dir(obj) 触发 
Class. dir (obj) 方法 。 


_ getattr (self, name) 


仅 当 获取 指定 的 属性 失败 ， 搜 索 过 obj, Class 和 超 类 之 后 调用 。 
表达 式 obj.no_such_attr、getattr(obj， 'no_such_attr') ) 和 
hasattr(obj, 'no_such_attr') 可 能 会 触发 
Class. getattr (obj, 'no_such_attr') 方法 ， 但 是 ， 仅 当 在 
obj. Class 和 超 类 中 找 不 到 指定 的 属性 时 才 会 触发 。 


_ getattribute (self, name) 


尝试 获取 指定 的 属性 时 总 会 调用 这 个 方法 ， 不 过 ， 寻 找 的 属性 是 特 
殊 属性 或 特殊 方法 时 除外 。 点 号 与 getattr 和 hasattr 内 置 函 数 会 触 
发 这 个 方法 。 调 用 ”getattribute _ 方法 且 抛 出 AttributeError 
异常 时 ， 才 会 调用 getattr _ 方法 。 为 了 在 获取 obj 实例 的 属性 时 
不 导致 无 限 递归 ， ”getattribute _ 方法 的 实现 要 使 用 
super(). getattribute (obj, name). 


__setattr__(self, name, value) 


尝试 设置 指定 的 属性 时 总 会 调用 这 个 方法 。 点 号 和 setattr AB 
函数 会 触发 这 个 方法 。 例 如 ，obj.attr = 42 和 setattr(obj, 
‘attr', 42) 都 会 触发 Class. setattr (obj, ‘attr’, 42) 方 
Jk 


A 其 实 ， 特 殊 方 法 ”getattribute 和 _setattr _ 不 管 
怎样 都 会 调用 ， 几 乎 会 影响 每 一 次 属性 存 取 ， 因 此 比 

_ getattr_ ”方法 〈 只 处 理 不 存在 的 属性 名 ) 更 难 正 确 使 用 。 与 
定义 这 些 特殊 方法 相 比 ， 使 用 特性 或 描述 符 相 对 不 易 出 错 。 


我 们 对 特性 、 特 殊 方法 和 其 他 动态 属性 编程 技术 的 讨论 到 此 结束 。 


19.7 本 章 小 结 


本 章 的 话题 是 动态 属性 编程 。 我 们 首先 举 了 几 个 实例 ， 定 义 了 几 个 简单 
的 类 ， 简 化 处 理 JSON 数据 源 的 方式 。 第 一 个 示例 是 FrozenJSON 类 ， 
EREDITARE ARREN FrozenJSON 实例 和 实例 列 

表 。FrozenJSON 类 的 代码 展示 了 如 何 使 用 特殊 的 ” getattr ”方法 
在 读 取 属性 时 即时 转换 数据 结构 。FrozenJSON 类 的 最 后 一 版 展示 了 如 
何 使 用 _new_ ”构造 方法 把 一 个 类 转换 成 一 个 灵活 的 对 象 工厂 函数 ， 

不 受 实例 本 喘 的 限制 。 


然后 ， 我 们 把 ISON 源 转换 成 一 个 shelve.Shelf 数据 库 ， 把 序列 化 的 
Record 实例 存在 里 面 。 第 1 版 Record 类 只 有 几 行 代码 ， 介 绍 了 “ 集 
束 ” 惯 用 法 : 使 用 传 给 ”init _ 方法 的 关键 字 参 数 ， 调 用 

self. dict .update(**kwargs) 构建 任意 属性 。 这 个 示例 的 第 2 
版 对 Record 类 做 了 扩展 : 一 个 是 DbRecord 类 ， 集 成 数据 库 操 作 ; 5 
一 个 是 Event 类 ， 通 过 特性 上 自动 获取 所 链接 的 记录 。 


接着 ， 本 章 讨 论 了 特性 。 我 们 定义 的 LineItem 类 中 有 个 特性 ， 确 保 
weight 属性 的 值 不 能 是 对 业务 没有 意义 的 负数 或 零 。 然 后 ， 我 们 深入 
说 明了 特性 的 句法 和 语义 。 随 后 ， 创 建 了 一 个 特性 工厂 函数 ， 在 不 定义 
多 个 读 值 方法 和 设 值 方法 的 前 提 下 ， 对 weight 和 price 属性 做 相同 的 
验证 。 那 个 特性 工厂 函数 用 到 了 几 个 精妙 的 概念 ， 例 如 团 包 和 被 特性 宪 
着 的 实例 属性 ， 提 供 了 优雅 的 通用 方案 ， 代 码 行 数 与 用 手工 编码 的 特性 
来 验证 单个 属性 的 一 样 多 。 


最 后 ， 我 们 简要 说 明了 如 何 使 用 特性 处 理 删除 属性 的 操作 ， 随 后 概览 
J Ms 内 置 函 数 
[特殊 方法 。 


19.8 延伸 阅读 


属性 处 理 和 内 置 的 内 省 函数 的 官方 文档 在 Python 标准 库 文 档 的 第 2 章 
中 ， 题 为 “Built-in 
Functions”(https://docs.python.org/3/library/functions.html)。 相 关 的 特殊 
方法 和 特殊 的 __slots__ 属性 在 Python 语言 参考 手册 中 的 “3.3.2. 
Customizing attribute access” — “i 
Chttps://docs.python.org/3/reference/datamodel.html#customizing-attribute- 
access) 里 说 明 。 调 用 特殊 方法 会 跳 过 实例 的 语意 原因 在 “3.3.9. Special 
method lookup” — +5 
(https://docs.python.org/3/reference/datamodel.html#special-method- 
lookup) 中 说 明 。 在 Python 标准 库 文 档 的 第 4 “Built-in 
Types” 里 ,， “4.13. Special Attributes” — “i 
Chttps://docs.python.org/3/library/stdtypes.html#special-attributes) 说 明了 
_ class 和 dict 属性 。 


David Beazley 与 Brian K. Jones 的 《Python Cookbook ( 3 hk) HAM 
hh) BS PAUL MAB WRATH, ARE PEM HT: “8.8 
ETX PIERE”, ARR T TEAR AR Bg RBS REE HS th EI PR 
问题 ; “8.15 委托 属性 的 访问 ”， 实 现 了 一 个 代理 类 ， 展 示 了 本 书 19.6.3 
节 所 列 的 大 多 数 特 殊 方法 ， 还 有 出 色 的 “9.21 避免 出 现 重 复 的 属性 方 
法 ”一 节 ， 示 例 19-24 中 定义 的 特性 工厂 函数 就 以 那 一 节 为 基础 。 


Alex Martelli Sf) «(Python 技术 手册 《第 2 版 ) 》 只 涵盖 了 Python 2.5, 
不 过 基础 知识 也 适用 于 Python3。 他 写 书 的 风格 严谨 而 客观 ， 讲 到 特性 
时 ， 只 用 了 3 页 ， 但 这 是 由 于 那 本 书 采 用 了 符合 逻辑 的 行文 方式 : 之 前 
的 15 页 已 经 对 Python 的 类 做 了 详尽 的 说 明 ， 包 括 摘 述 符 ， 而 特性 就 是 
使 用 描述 符 实 现 的 。 因 此 讲 到 特性 时 ， 他 可 以 在 3 页 的 篇 幅 中 发 表 很 多 
见解 ， 例 如 本 章 开 篇 引用 的 那 句 话 。 


本 章 开 头 引 用 的 统一 访问 原则 定义 出 目 Bertrand Meyer 的 优秀 著作 

Object-Oriented Software Construction, Second Edition (Prentice-Hall 出 
版 社 ) 。 这 本 书 超过 1250 页 ， 我 承认 我 没有 读 完 ， 不 过 前 六 章 对 面向 
对 象 分 析 和 设计 相关 概念 的 介绍 是 我 见 过 最 好 的 之 一 ， 第 11 章 介 绍 了 
契约 式 设计 〈Meyer 发 明了 这 种 设计 方法 ， 创 造 了 这 个 术语 ) ， 第 35 


章 阐述 了 他 对 重要 的 面向 对 象 语 言 的 评价 ， 包 括 Simula, Smalltalk. 
CLOS (Lisp 的 面向 对 象 扩展 ) 、 Objective-C. C++ 和 Java， 还 对 其 他 
语言 做 了 简要 评述 。 他 还 发 明了 伪 伪 代码 (pseudo- pseudocode) ， 直 到 
那 本 书 的 最 后 一 页 他 才 披 露 ， 全 书 用 于 编写 伪 代 人 码 的 句法 其 实 出 自 


Eiffel 语言 。 
杂谈 


站 在 美学 的 角度 来 看 ，Meyer 提出 的 统一 访问 原则 (Unifrom 
Access Principle， 走 欢 简称 的 人 有 时 称 之 为 UAP) 很 吸引 人 。 作 为 
使 用 API 的 程序 员 ， 我 不 应 该 关心 coconut .price 只 是 获取 数据 
属性 还 是 执行 计算 。 但 是 ， 作 为 消费 者 和 公民 ， 我 应 该 关心 : 在 电 
子 商务 发 达 的 今天 ，coconut.price 的 值 通 常 取决 于 这 个 问题 由 
谁 提出 ， 因 此 它 绝 不 仅仅 是 个 数据 属性 。 其 实 ， 如 果 碍 询 来 自 网 店 
外 部 《例如 比价 引擎 ) ， 价 格 通常 会 低 一 些 。 显 然 ， 这 对 喜欢 浏览 
特定 网 店 的 忠实 消费 者 来 说 ， 利 益 受 到 了 损害 。 但 是 我 不 同意 。 


前 一 段 离 题 了 ， 可 是 却 提出 了 与 编程 有 关 的 问题 : 虽然 统一 访问 原 
则 在 理想 的 世界 中 完全 合理 ， 但 在 现实 中 ，API 的 用 户 可 能 需要 知 
道 读 取 coconut .price 是 否 太 耗 资源 或 时 间 。Ward Cunningham 的 
维基 (http://c2.com/cgi/wiki?WelcomeVisitors) 对 软件 工程 方面 的 话 
题 有 很 多 独到 的 见解 ， 他 对 统一 访问 原则 的 功 过 也 做 了 宣 有 洞察 力 
的 论述 (http://c2.com/cgi/wiki?UniformAccessPrinciple)。 


在 面向 对 象 编程 语言 中 ， 是 人 否 休 守 统 一 访问 原则 通常 体现 在 句法 
E: 完 竟 是 读 取 公开 的 数据 属性 ， 还 是 调用 读 值 方法 和 设 值 方法 。 


Smalltalk 和 Ruby 使 用 简单 而 优雅 的 方式 解决 这 个 问题 : 根本 不 文 
持 公开 的 数据 属性 。 在 这 两 门 语言 中 ， 所 有 实例 属性 都 是 私有 的 ， 
因此 必须 通过 方法 来 存 取 。 不 过 ， 这 两 门 语 言 的 句法 把 这 个 过 程 变 
得 毫 不 费力 : 在 Ruby 中 ，coconut .price 会 调用 读 值 方法 
price; 在 Smalltalk 中 ， 只 需 使 用 coconut price. 


Java 采用 的 是 另 一 种 方式 ， 让 程序 员 在 四 种 访问 级 别 修饰 符 中 选 
#8, DS 不 过 ， 普 通 大 众 并 不 认同 Java 设计 者 制定 的 这 种 句法 。 
Java 世界 的 人 都 认为 ， 属 性 应 该 是 私有 的 ， 但 是 每 一 次 都 要 写 出 
private， 因 为 这 不 是 默认 的 访问 级 别 。 如 果 所 有 属性 都 是 私有 
的 ， 那 么 从 类 外 部 访问 属性 就 必须 使 用 存 取 方 法 。Java IDE 提供 了 


目 动 生成 存 取 方 法 的 快捷 方式 。 但 是 ， 六 个 月 后 不 得 不 阅读 代码 
时 ，IDE 没有 多 大 帮助 。 我 们 要 在 众多 什么 也 没 做 的 存 取 方 法 中 找 
出 所 需 的 那 一 个 ， 添 加 实现 某 些 业 务 逻 辑 所 需 的 值 。 


Alex Martelli 把 存 取 方 法 称 为 “思春 的 惯用 法 ”， 这 道 出 了 Python 社 
他 举 了 下 面 两 个 例子 ， 外 观 差 异 很 大 ， 但 是 
用 祖 同 : 


someInstance.widgetCounter += 1 


# 而 不 用 


someInstance. setWidgetCounter(someInstance.getwWidgetCounter() + 1) 


Wit API 时 ， 我 有 时 会 想 ， 能 否 把 没有 参数 〈 除 了 self) 、 返 回 
一 个 值 (除了 None) ANZ eae CRIA RIVED) 蔡 换 成 只 读 特 
性 。 在 本 章 中 ，LineItem.subtotal 方法 (如 示例 19-23 所 示 ) 
就 可 以 替换 成 只 读 特 性 。 当 然 ， 用 于 修改 对 象 的 方法 〈 如 
my_list.clear()) 不 在 此 列 。 把 这 样 的 方法 变 成 特性 是 个 糟 六 
的 想法 ， 因 为 直接 访问 my_list.clear 就 会 删除 列表 中 的 内 容 。 


在 GPIO 库 Pingo.io Chttp://www.pingo.io/docs/, 3.4.2 节 提 过 ) "F, 
多 数 用 户 级 别 的 API 都 基于 特性 实现 。 例 如 ， 为 了 读 取 模拟 针脚 的 
当前 值 ， 用 户 要 编写 pin.value; 为 了 设置 数字 针脚 的 模式 ， 要 写 
成 pin.mode = OUT。 在 背后 ， 读 取 模 拟 针 脚 的 值 或 设置 数字 针脚 
的 模式 可 能 涉及 大 量 代 码 ， 这 取 雇 于 具体 的 主板 驱动 。 我 们 诀 定 在 
Pingo 中 使 用 特性 ， 是 因为 我 们 想 让 API 用 起 来 舒服 ， 即 便 是 在 
iPython Notebook Chttp://ipython.org/notebook.html) 等 交互 环境 中 也 
是 如 此 ， 而 且 我 们 觉得 pin.mode = OUT 看 起 来 和 输入 起 来 都 比 
pin.set_mode(OUT) 容易 。 


我 觉得 Smalltalk 和 Ruby 的 处 理 方 式 很 简洁 ， 但 也 认为 Python 的 处 

理 方 式 比 Java 更 合理 。 一 开始 ， 我 们 可 以 从 简单 的 方式 入 手 ， 把 

数据 成 员 定义 为 公开 的 属性 ， 因 为 我 们 知道 这 些 属性 可 以 使 用 特性 
《或 下 一 章 讨论 的 摘 述 符 ) 来 包装 。 

_new _ 方法 比 new 运算 符 好 


在 Python 中 还 有 一 处 体现 了 统一 访问 原则 《或 者 它 的 变 体 ) : 函数 


调用 和 对 象 实例 化 使 用 相同 的 句法 一 一 my_ obj = foo()， 其 中 
foo 是 类 或 其 他 可 调用 的 对 象 。 


受 C++ 句法 影响 的 其 他 语言 提供 了 new 运算 符 ， 致 使 实例 化 不 像 

是 调用 。 大 多 数 时 候 ，API 的 用 户 不 关心 foo 是 函数 还 是 类 。 直 到 
最 近 ， 我 才 意 识 到 ，property 是 个 函数 。 在 常规 的 用 法 中 ， 这 没 
什么 区 别 。 


把 构造 方法 替换 成 工厂 方法 有 很 多 充足 的 理由 。1’ 一 个 重要 的 原因 
是 ， 通 过 返回 之 前 构建 的 实例 ， 限 制 实例 的 数量 (体现 了 单 例 模 
式 ) 。 有 个 相关 的 功能 是 ， 缓 存 构建 过 程 开 销 大 的 对 象 。 此 外 ， 有 
时 便于 根据 指定 的 参数 返回 不 同类 型 的 对 象 。 


定义 构造 方法 较为 简单 ， 提 供 工厂 方法 虽然 增加 了 有 灵 活性， 但 是 要 
编写 更 多 的 代码 。 在 有 new 运算 符 的 语言 中 ，API 的 设计 者 必须 提 
前 决定 : 究竟 是 坚持 使 用 简单 的 构造 方法 ， 还 是 投入 工矿 方法 的 怀 
抱 。 如 果 一 开始 选择 错 了 ， 那 么 修正 的 代价 可 能 很 大 一 一 这 一 切 都 
因为 new 是 运算 符 。 


有 时 可 能 更 适合 走 男 一 条 路 ， 把 简单 的 函数 换 成 类 。 


在 Python 中 ， 很 多 情况 下 类 和 函数 可 以 互 换 。 这 不 仅 是 因为 Python 
没有 new 运算 符 ， 还 因为 有 特殊 的 new ”方法 ， 可 以 把 类 变 成 
工厂 方法 ， 生 成 不 同类 型 的 对 象 (如 19.1.3 节 所 述 ) ， 或 者 返回 事 
先 构 建 好 的 实例 ， 而 不 是 每 次 都 创建 一 个 新 实例 。 


如 果 “PEP 8 一 Style Guide for Python 

Code” Chttps://www.python.org/dev/peps/pep-0008/#class-names ) 不 
推荐 类 名 使 用 驼峰 式 (CamelCase) ， 那 么 函数 与 类 的 对 偶 性 更 易 
于 使 用 。 不 过 ， 标 准 库 中 有 很 多 类 的 名 称 是 小 写 的 (例如 
property、str、defaultdict， 等 等 ) 。 因 此 ， 使 用 小 写 的 类 名 
可 能 是 个 特色 ， 而 不 是 缺陷 。 但 是 ， 不 管 怎么 看 ，Python 标准 库 在 
类 名 大 小 写 上 的 不 一 致 会 导致 可 用 性 问题 。 


虽然 调用 函数 与 调用 类 没有 区 别 ， 但 是 最 好 知道 哪个 是 哪个 ， 因 为 
类 还 有 一 个 功能 : 子 类 化 。 因 此 ， 我 编写 的 每 个 类 都 使 用 驼峰 式 名 
称 ， 而 且 和 希望 Python 标准 库 中 的 所 有 类 也 使 用 这 一 约定 。 我 在 上 果 着 
你 昵 ，collections.0rderedDict 和 


collections.defaultdict. 


二 包括 没有 名 称 的 默认 级 别 ，Java 教程 
(http;//docs.oracle.conmy/javase/tutoriaVjava/javaOO/accesscontrol.html〉 称 其 为 “ 包 级 私有 ”。 


16 (Python 技术 手册 (第 2 版 )》 第 101 页 。 


了 7 我 将 要 提 到 的 原因 出 自 Jonathan Amsterdam 发 布 在 Dr. Dobbs Journal 中 的 一 篇 文章 ， 题 

为 "Java's new Considered Harmful’ (http://www.drdobbs.com/iavas-new-considered- 
harmful/184405016) ， 以 及 Joshua Bloch 写 的 获奖 图 书 Effective Java 中 的 第 一 条 ,“ 考 虑 用 吏 
态 工 厂 方法 代 蔡 构造 函数 ”。 


F 20m REMIR 


学 会 描述 符 之 后 ， 不 仅 有 更 多 的 工具 集 可 用 ， 还 会 对 Python 的 运作 
ARABERA HAR Python 设计 的 优雅 。1 


Raymond Hettinger 
Python 核心 开发 者 和 专家 


1 摘自 Raymond Hettinger 写 的 “Descriptor HowTo 
Guide” (https://docs.python.org/3/howto/descriptor.html) 。 


描述 符 是 对 多 个 属性 运用 相同 存 取 逻辑 的 一 种 方式 。 例 如 ，Django 
ORM 和 SQL Alchemy 等 ORM 中 的 字段 类 型 是 摘 述 符 ， 把 数据 库 记 录 中 
字段 里 的 数据 与 Python 对 象 的 属性 对 应 起 来 。 


描述 符 是 实现 了 特定 协议 的 类 ， 这 个 协议 包括 get 、 set 和 

_ delete _ 方法 。property 类 实现 了 完整 的 描述 符 协 议 。 通 常 ， 可 

以 只 实现 部 分 协议 。 其 实 ， 我 们 在 真实 的 代码 中 见 到 的 大 多 数 捅 述 符 只 
实现 了 get 和 set _ 方法 ， 还 有 很 多 只 实现 了 其 中 的 一 个 。 


描述 符 是 Python 的 独 有 特征 ， 不 仅 在 应 用 层 中 使 用 ， 在 语言 的 基础 设施 
中 也 有 用 到 。 除 了 特性 之 外 ， 使 用 描述 符 的 Python 功能 还 有 方法 及 
classmethod 和 staticmethod 装饰 右 。 理 解 摘 述 符 是 精通 Python 的 
关键 。 本 章 的 话题 就 是 描述 符 。 


20.1 HRA: 验证 属性 


如 19.4 节 所 示 ， 特 性 工厂 函数 借助 函数 式 编程 模式 避免 重复 编写 读 值 
方法 和 设 值 方法 。 特 性 工厂 函数 是 高 阶 函数 ， 在 闭 包 中 存储 
storage_name 等 设置 ， 由 参数 决定 创建 哪些 存 取 函 数 ， 再 使 用 存 取 也 
数 构建 一 个 特性 实例 。 解 决 这 种 问题 的 面向 对 象 方式 是 描述 符 类 。 


这 里 继续 19.4 节 的 LineItem 系列 示例 ， 把 quantity 特性 工厂 函数 重 
构成 Quantity 描述 符 类 。 


20.1.1 LineItem 类 第 3 版 : 一 个 简单 的 描述 符 


ILS get. set 或 _ delete 方法 的 类 是 描述 符 。 描 述 符 
的 用 法 是 ， 创 建 一 个 实例 ， 作 为 另 一 个 类 的 类 属性 。 


我 们 将 定义 一 个 Quantity 描述 符 ，LineItem 类 会 用 到 两 个 Quantity 


实例 : 一 个 用 于 管理 weight 属性 ， 另 一 个 用 于 管理 price 属性 。 示 意 
图 有 助 于 理解 ， 如 图 20-1 所 示 。 


描述 符 类 BB 托管 类 
Lineltem 
«descriptor» 


description 
a init 

set mni 
subtotal 


设置 托管 属性 | 


图 20-1: LineItem 类 的 UML 示 意图， 用 到 了 名 为 Quantity 的 描述 
符 类 。UML 示意 图 中 带 下 划 线 的 属性 是 类 属性 。 注 意 ，weight 和 
price 是 依附 在 LineItem 类 上 的 Quantity 类 的 实例 ， 不 过 
LineItem 实例 也 有 自己 的 weight 和 price 属性 ， 存 储 着 相应 的 值 


注意 ， 在 图 20-1 F, “weighf”" 这 个 词 出 现 了 两 次 ， 因 为 其 实 有 两 个 不 同 
的 属性 都 叫 weight: 一 个 是 LineItem 的 类 属性 ， 另 一 个 是 各 个 
LineItem 对 象 的 实例 属性 。price 也 是 如 此 。 
从 现在 开始 ， 我 会 使 用 下 述 定义 。 
描述 符 类 

实现 描述 符 协 议 的 类 。 在 图 20-1 中 ， 是 Quantity 类 。 
托管 类 

把 描述 符 实 例 声明 为 类 属性 的 类 一 -网 20-1 中 的 LineItem 类 。 
描述 符 实 例 

描述 符 类 的 各 个 实例 ， 声 明 为 托管 类 的 类 属性 。 在 图 20-1 中 ， 各 
个 描述 符 实 例 使 用 箭头 和 带 下 划 线 的 名 称 表示 〈 在 UML 中 ， 下 划 线 表 
示 类 属性 ) 。 与 黑色 菱形 接触 的 LineItem 类 包含 描述 符 实例 。 
托管 实例 


托管 类 的 实例 。 在 这 个 示例 中 ，LineItem 实例 是 托管 实例 〈 没 在 
类 图 中 展示 ) 。 


储存 属性 

托管 实例 中 存储 目 喘 托管 属性 的 属性 。 在 图 20-1 F, LineItem 实 
例 的 weight Al price 属性 是 储存 属性 。 这 种 属性 与 描述 符 属 性 不 同 ， 
描述 符 属 性 都 是 类 属性 。 
托管 属性 


托管 类 中 由 描述 符 实 例 处 理 的 公开 属性 ， 值 存储 在 储存 属性 中 。 也 
就 是 说， 描述 符 实 例 和 储存 属性 为 托管 属性 建立 了 基础 。 


Quantity 实例 是 LineItem 类 的 类 属性 ， 这 一 点 一 定 要 理解 。 图 20-2 
中 的 机 器 和 小 怪兽 强调 了 这 个 关键 点 。 


- CTT] 
人 weight `| description 
Quantit — 一 Ta 
no~ | weight {storage} gA 
ni ric orice {storage = 
set oat |) |e 
—— subtotal 


图 20-2: 市 有 MGN (Mills & Gizmos Notation， 机 器 和 小 怪兽 图 示 
法 ) 注解 的 UML 类 图 : 类 是 机 器 ， 用 于 生产 小 怪兽 〈 实 

fil) 。Quantity 机 堪 生 产 了 两 个 圆 头 的 小 怪兽 ， 依 附 到 LineItem 
机 器 上 ， 即 weight 和 price。LineItem 机 器 生产 方 头 的 小 怪兽 ， 
有 自己 的 weight 和 price 属性 ， 存 储 着 相应 的 值 


机 顺和 小 怪兽 图 示 法 介绍 


我 以 前 经 常 使 用 UML 解说 描述 符 ， 但 是 后 来 发 现 UML 无 法 很 好 地 

展现 类 与 实例 之 间 的 关系 ， 例 如 托管 类 与 描述 符 实 例 之 间 的 关 

系 。“ 所 以 ， 我 自己 发 明了 一 门 “ 语 言 ” ”机 器 和 小 怪兽 图 示 法 
(Mills & Gizmos Notation, MGN) ， 使 用 它 注解 UML 示意 图 。 


MGN 的 目的 是 明确 区 分 类 和 实例 。 如 图 20-3 所 示 。 在 MGN 中 ， 
类 画 成 “机 器 ”， 这 是 一 种 复杂 的 设备 ， 用 于 生产 小 怪兽 。 类 〈 机 
器 ) 都 是 有 操控 杆 和 刻度 盘 的 设备 。 小 怪兽 是 实例 ， 外 观 更 简洁 。 
小 怪兽 与 生产 它 的 机 器 具有 相同 的 颜色 。 


MWs & 
Gizmos 
Notation 


AGN 


L Ite 
Inertem <a> 


图 20-3: MGN fai ean, LineItem 类 生产 了 三 
fil, Quantity 类 生产 了 两 个 实例 。 其 中 一 个 Vela 实例 从 
一 个 LineItem 实例 中 获取 存储 的 值 


在 这 个 示例 中 ， 我 把 LineItem 实例 画 成 表格 中 的 行 ， 各 有 三 个 单 
元 格 ， 表示 三 个 属性 〈description、weight 和 

price) 。Quantity 实例 是 描述 符 ， 因 此 有 个 放大 锐 ， 用 于 获取 
值 (get__) ， 以 及 一 个 手 抓 ， 用 于 设置 值 ( set__) 。 讲 到 
元 类 时 ， 你 会 感谢 我 男 了 这 些 涂鸦 。 


| ?在 UML 类 图 中 ， 类 和 实例 都 画 成 方 框 。 虽然 视 觉 上 有 区 别 ， 但 是 因为 类 图 中 很 少 出 现实 
例 ， 所 以 开发 者 可 能 认 不 出 。 


Fete ESE ， 来 看 代码 : 示例 20-1 是 Quantity 描述 符 类 和 新 
版 LineItem 类 Quantity 实例 。 


RG AS 


示例 20-1 bulkfood_v3.py: 使 用 Quantity 描述 符 管 理 LineItem 
的 属性 


class Quantity: © 


def _ init__(self, storage name): 
self.storage_ name = storage name @ 


def _set_ (self, instance, value): © 
if value > ð: 
instance. dict [self.storage name] = value © 
else: 
raise ValueError('value must be > @') 


class LineItem: 
weight = Quantity('weight') © 
price = Quantity('price') © 


def _ init__(self, description, weight, price): @ 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ 描述 符 基 于 协议 实现 ， 无 需 创 建 子 类 。 


© Quantity 实例 有 个 storage name 属性 ， 这 是 托管 实例 中 存储 值 的 
属性 的 名 称 。 


O 涯 试 为 托管 属性 赋值 时 ， 会 调用 __set__ Wik. XE, self 是 描述 
符 实 例 ( 即 LineItem.weight 或 LineItem.price) ，instance 是 
托管 实例 〈LineItem 实例 ) , value 是 要 设 定 的 值 。 


@ 这里， 必须 直接 处 理 托 管 实例 的 _dict _ 属性 ; 如果 使 用 内 置 的 
St hr 函数 ， 会 再 次 触发 set 方法， 导致 无 限 递归 。 


O 第 一 个 描述 符 实例 绑 定 给 weight 属性 。 
O 第 二 个 描述 符 实 例 绑 定 给 price 属性 。 


O 类 定义 体 中 余下 的 代码 与 bulkfood vl.py 脚本 《〈 见 示例 19-15) 中 的 
代码 一 PERE 


在 示例 20-1 中 ， 各 个 托管 属性 的 名 称 与 储存 属性 一 样 ， 而 且 读 值 方法 
不 需要 特殊 的 逻辑 ， 所 以 Quantity 类 不 需要 定义 get _ 方法 。 


示例 20-1 中 的 代码 会 像 预期 那样 运作 ， 禁 止 以 0 美元 销售 松露 : ” 


一 磅 白松 圳 价值 几 千 美元 。 留 个 练习 给 有 进取 心 的 读者 : 不 准 以 0.01 美元 的 价格 销售 松露 。 
我 认识 一 个 人 ， 他 以 18 美元 买 到 了 价值 1800 美元 的 统计 学 百科 全 书 ， 因 为 那个 网 店 ( 不 是 亚 
马 逊 ) 有 漏洞 。 


>>> truffle = LineItem('White truffle’, 100, @) 
Traceback (most recent call last): 


ValueError: value must be > @ 


Bes 4 set _ ”方法 时 ， 要 记 住 self 和 instance 参数 的 意 
思 : self 是 描述 符 实 例 ，instance 是 托管 实例 。 管 理 实例 属性 的 
描述 符 应 该 把 值 存储 在 托管 实例 中 。 因 此 ，Python 才 为 描述 符 中 的 
那个 方法 提供 了 instance 参数 。 


你 可 能 想 把 各 个 托管 属性 的 值 直接 存在 描述 符 实 例 中 ， 但 是 这 种 做 法 是 
音 误 的 。 也 就 是 说 ,在 set ”方法 中 ， 应 该 像 下 面 这 样 写 : 


instance. dict [self.storage name] = value 


而 不 能 试图 使 用 下 面 这 种 错误 的 写法 : 


self. dict [self.storage name] = value 


为 了 理解 错误 的 原因 ， 可 以 想 想 _ set_ _ 方法 前 两 个 参数 (self 和 
instance) 的 意思 。 这 里 ，self 是 摘 述 符 实 例 ， 它 其 实 是 托管 类 的 类 


属性 。 同 一 时 刻 ， 内 存 中 可 能 有 几 千 个 LineItem 实例 ， 不 过 只 会 有 两 
个 描述 符 实 例 : LineItem.weight 和 LineItem.price。 因 此 ， 存 储 
在 描述 符 实例 中 的 数据 ， 其 实 会 变 成 LineItem 类 的 类 属性 ， 从 而 由 全 
部 LineItem 实例 共享 。 


示例 20-1 有 个 缺点 ， 在 托管 类 的 定义 体 中 实例 化 描述 符 时 要 重复 输入 
属性 的 名 称 。 如 果 LineItem 类 能 像 下 面 这 样 声明 就 好 了 : 


class LineItem: 
weight = Quantity() 
price = Quantity() 


# 余下 的 方法 与 之 前 一 样 


可 问题 是 ， 正 如 第 8 章 说 过 的 ， 赋 值 语 名 右手 边 的 表达 式 先 执行 ， 而 此 
时 变量 还 不 存在 。 Quantity() 表达 式 计 算 的 结果 是 创建 描述 符 实 例 ， 
而 此 时 Quantity 类 中 的 代码 无 法 猜 出 要 把 描述 符 绑 定 给 哪个 变量 〈 例 
如 weight 或 price) 。 


因此 ， 示 例 20-1 必须 明确 指明 各 个 Quantity 实例 的 名 称 。 这 样 不 仅 
PRI, TAR oak: 如 果 程 序 员 直 接 复制 粘贴 代码 而 筷 了 编辑 名 称 ， 比 如 
写成 price = Quantity('weight')， 那 么 程序 的 行为 会 大 错 特 错 ， 
设置 price HENS m weight ME. 


下 一 节 会 介绍 一 个 不 太 优雅 但 是 可 行 的 方案 ， 解 决 这 个 重复 输入 名 称 的 
问题 。 更 好 的 解决 方案 是 使 用 类 装饰 器 或 元 类 ， 等 到 第 21 章 再 介绍 。 
20.1.2 LineItem 类 第 4 版 : 自动 获取 储存 属性 的 名 称 
为 了 避免 在 描述 符 声 明 语句 中 重复 输入 属性 名 ， 我 们 将 为 每 个 


Quantity 实例 的 storage_name 属性 生成 一 个 独一无二 的 字符 串 。 图 
20-4 是 更 新 后 的 Quantity 和 LineItem 类 的 UML 类 图 。 


«descriptor» 
Quantit 


description 


_Quantity#0 {storage} 
onte price _ Quantity#1 {storage 


get - 
set 


subtotal 


图 20-4: 示例 20-2 的 UML 类 图 。 现 在 ，Quantity 类 既 有 __get__ 
方法 ， 也 有 __set__ 方法 ; LineItem 实例 中 储存 属性 的 名 称 是 生成 
的 ，_Quantity#6 和 Quantity#1 


为 了 生成 storage_name， 我 们 以 '_Quantity#' 为 前 级 ， 然 后 在 后 面 
拼接 一 个 整数 ，Quantity. counter 类 属性 的 当前 值 ， 每 次 把 一 个 
新 的 Quantity 描述 符 实 例 依附 到 类 上 ， 都 会 递增 这 个 值 。 在 前 级 中 使 
用 并 号 能 避免 storage name 与 用 户 使 用 点 号 创建 的 属性 冲突 ， 因 为 


nutmeg. Quantity#0 是 无 效 的 Python 句法 。 但 是 ， 内 置 的 getattr 
和 setattr 疯 数 可 以 使 用 这 种 “无 效 的 ”标识 符 获 取 和 设置 属性 ， 此 外 
也 可 以 直接 处 理 实例 属性 _ dict 。 示 例 20-2 是 新 的 实现 。 


示例 20-2 bulkfood v4.py: 每 个 Quantity 描述 符 都 有 独一无二 
的 storage_name 


class Quantity: 
_counter = 6 © 


def _ init__(self): 
cls = self. class @ 
prefix = cls. name _ 
index = cls. counter 
self.storage name = ' {}#{}'.format(prefix, index) © 
cls.__ counter += 1 


_ get (self, instance, owner): © 
return getattr(instance, self.storage_name) (6) 


def _set (self, instance, value): 
if value > @: 
setattr(instance, self.storage_name, value) (7) 
else: 
raise ValueError('value must be > @') 


class LineItem: 
weight = Quantity() © 
price = Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ counter 是 Quantity 类 的 类 属性 ， 统 计 Quantity 实例 的 数 
量 。 


© cls 是 Quantity 类 的 引用 。 


O 每 个 描述 符 实例 的 storage name 属性 都 是 独一无二 的 ， 因 为 其 值 
由 描述 符 类 的 名 称 和 counter 属性 的 当前 值 构成 〈 例 
如 ，_Quantity#6) 。 


O 递增 ”counter 属性 的 值 。 


O 我 们 要 实现 get _ 方法 ， 因 为 托管 属性 的 名 称 与 storage_name 
不 同 。 稍 后 会 说 明 owner 参数 。 


@ 使 用 内 置 的 getattr 函数 从 instance 中 获取 储存 属性 的 值 。 
O 使 用 内 置 的 setattr 函数 把 值 存 储 在 instance 中 。 


不 用 把 托管 属性 的 名 称 传 给 Quantity 构造 方法 。 这 是 这 一 版 
I 目标 。 


这 里 可 以 使 用 内 置 的 高 阶 函 数 getattr 和 setattr 存 取 值 ， 无 需 使 用 
instance. dict ， 因 为 托管 属性 和 储存 属性 的 名 称 不 同 ， 所 以 把 
储存 属性 传 给 getattr MARSA HHIAT, BRERA 20-1 那样 出 
现 无 限 递 归 。 


测试 bulkfood_v4.py 脚本 之 后 你 会 发 现 ，weight 和 price 描述 符 能 按 
预期 使 用 ， 而 且 储 存 属 性 也 能 直接 读 取 一 一 这 对 调试 有 帮助 : 


>>> from bulkfood v4 import LineItem 
>>> coconuts = LineItem('Brazilian coconut', 20, 17.95) 
>>> coconuts.weight, coconuts.price 


(20, 17.95) 
>>> getattr(coconuts, ' Quantity#@'), getattr(coconuts, ' Quantity#1' ) 
(20, 17.95) 


` 如 果 想 使 用 Python 矫正 名 称 的 约定 方式 (例如 
_LineItem__quantity®) ， 要 知道 托管 类 〈 即 LineItem) 的 名 
称 ， 可 是 ， 解 释 器 要 先 运行 类 的 定义 体 才能 构建 类 ， 因 此 创建 描述 
符 实 例 时 得 不 到 那个 信息 。 不 过 ， 对 这 个 示例 来 说 ， 为 了 防止 不 小 
BPR te. NAGASE RN AR, BARES DL AN FHI 
符 ， 描 述 符 类 的 __counter 属性 都 会 递增 ， 从 而 确保 每 个 托管 类 
的 每 个 储存 属性 的 名 称 都 是 独一无二 的 。 


注意 ， get _ 方法 有 三 个 参数 : self, instance 和 owner. owner 
参数 是 托管 类 (如 LineItem) 的 引用 ， 通 过 摘 述 符 从 托管 类 中 获取 属 
性 时 用 得 到 。 如 果 使 用 LineItem.weight 从 类 中 获取 托管 属性 (以 
weight 为 例 ) ， 描 述 符 的 get __ 方法 接收 到 的 instance 参数 值 是 
None。 因 此 ， 下 述 控制 台 会 话 才 会 抛 出 AttributeError 异常 : 


>>> from bulkfood v4 import LineItem 
>>> LineItem.weight 
Traceback (most recent call last): 


File ".../descriptors/bulkfood_v4.py", line 54, in get _ 
return getattr(instance, self.storage_name) 
AttributeError: 'NoneType' object has no attribute ' Quantity#0' 


抛 出 AttributeError 异常 是 实现 get_ ”方法 的 方式 之 一 ， 如 果 选 
择 这 么 做 ， 应 该 修改 错误 消息 ， 去 掉 令 人 困惑 的 NoneType 和 

_Quantity#6， 这 是 实现 细节 。 把 错误 消息 改 成 "'LineItem' class 
has no such attribute" 更 好 。 最 好 能 给 出 缺少 的 属性 名 ， 但 是 在 
这 个 示例 中 ， 描 述 符 不 知道 托管 属性 的 名 称 ， 因 此 目前 只 能 做 到 这 样 。 


此 外 ， 为 了 给 用 户 提供 内 省 和 其 他 元 编程 搁 术 支持 ， 通 过 类 访问 托管 属 
性 时 ， 最 好 让 _ get _ ”方法 返回 描述 符 实例 。 示 例 20-3 对 示例 20-2 做 
TINEA, X Quantity. get _ 方法 添加 了 一 些 逻 辑 。 


示例 20-3 bulkfood v4b.py《〈“ 只 列 出 部 分 代码 ) : 通过 托管 类 调用 
时 ， ”get ”方法 返回 描述 符 的 引用 


class Quantity : 
__counter = 0 


def _init (self): 
cls = self. class _ 
prefix = cls. name _ 
index = cls. counter 
self.storage name = '_{}#{}'.format(prefix, index) 
cls.__ counter += 1 


def _get_ (self, instance, owner): 
if instance is None: 
return self @ 


else: 
return getattr(instance, self.storage_name) (2) 


def _set (self, instance, value): 
if value > @: 
setattr(instance, self.storage_name, value) 
else: 
raise ValueError('value must be > @') 


@ 如 果 不 是 通过 实例 调用 ， 返 回 描述 符 自 身 。 
O 否则 ， 像 之 前 一 样 ， 返 回 托管 属性 的 值 。 
测试 示例 20-3， 会 看 到 如 下 结果 : 


>>> from bulkfood_v4b import LineItem 
>>> LineItem. price 
<bulkfood_v4b.Quantity object at 0x100721be0> 


>>> br_nuts = LineItem('Brazil nuts', 10, 34.95) 
>>> br_nuts.price 
34.95 


看 着 示例 20-2， 你 可 能 党 得 就 为 了 管理 几 个 属性 而 编写 这 么 多 代码 不 值 
得 ， 但 是 要 知道 ， 描 述 符 逻辑 现 在 被 抽象 到 单独 的 代码 单元 
(Quantity 类 ) 中 了 。 通 常 ， 我 们 不 会 在 使 用 描述 符 的 模块 中 定义 描 
述 符 ， 而 是 在 一 个 单独 的 实用 工具 模块 中 定义 ， 以 便 在 整个 应 用 中 使 用 
一 一 如 果 开 发 的 是 框架 ， 甚 至 会 在 多 个 应 用 中 使 用 。 


了 解 这 一 点 之 后 就 可 推 知 ， 示 例 20-4 是 摘 述 符 的 常规 用 法 。 


示例 20-4 bulkfood v4c.py: 整洁 的 LineItem 类 ; Quantity fH 
述 符 类 现在 位 于 导入 的 model_v4c 模块 中 


import model v4c as model © 


class LineItem: 
weight = model.Quantity() @ 
price = model.Quantity() 


def _ init__(self, description, weight, price): 


self.description = description 
self.weight = weight 
self.price = price 


de 


-h 


subtotal(self): 
return self.weight * self.price 


@ 导入 model_v4c 模块 ， 指 定 一 个 更 友好 的 名 称 。 


© 使 用 model.Quantity 描述 符 。 


Django 用 户 会 肥 现 ， 示 例 20-4 非常 像 模型 定义 。 这 不 是 巧合 :Django 
模型 的 字段 就 是 描述 符 。 


` 就 目前 的 实现 来 说 ，Quantity 描述 符 能 出 色 地 完成 任务 。 它 
唯一 的 缺点 是 ， 储 存 属性 的 名 称 是 生成 的 (如 _Quantity#6) , 
导致 用 户 难 以 调试 。 但 这 是 不 得 已 而 为 之 ， 如 果 想 自动 把 储存 属性 
的 名 称 设 成 与 托管 属性 的 名 称 类 似 ， 需 要 用 到 类 装饰 器 或 元 类 ， 而 
这 两 个 话题 到 第 21 章 才 会 讨论 。 
描述 符 在 类 中 定义 ， 因 此 可 以 利用 继承 重用 部 分 代码 来 创建 新 描述 符 。 
下 一 节 会 这 么 做 。 
特性 工厂 函数 与 描述 符 类 比较 
特性 工厂 函数 若 想 实现 示例 20-2 中 增强 的 描述 符 类 并 不 难 ， 只 需 
在 示例 19-24 的 基础 上 添加 几 行 代码 。__counter 变量 的 实现 方式 


是 个 难点 ， 不 过 我 们 可 以 把 它 定 义 成 工厂 函数 对 象 的 属性 ， 以 便 在 
多 次 调用 之 间 持 续 存 在 ， 如 示例 20-5 所 示 。 


示例 20-5 bulkfood v4prop.py: 使 用 特性 工厂 函数 实现 与 示 
例 20-2 中 的 描述 符 类 相同 的 功能 


def quantity(): © 
try: 
quantity.counter += 1 @ 
except AttributeError: 
quantity.counter = 6 © 


storage name = '_{}:{}'.format('quantity', quantity.counter) @ 


def qty_getter(instance): © 
return getattr(instance, storage name) 


def qty_setter(instance, value): 
if value > ð: 
setattr(instance, storage _name, value) 
else: 
raise ValueError('value must be > 6 ') 


return property(qty_getter, qty_setter) 


@ 没有 storage name 参数 。 


O 不 能 依靠 类 属性 在 多 次 调用 之 间 共 享 counter， 因 此 把 它 定义 
为 quantity 函数 自身 的 属性 。 


© 如 果 quantity .counter 属性 未 定义 ， 把 值 设 为 6。 
@ 我们 也 没有 实例 变量 ， 因 此 创建 一 个 局 部 变量 storage_name, 
借助 闭 包 保持 它 的 值 ， 供 后 面 的 qty_getter 和 qty_setter 函数 
使 用 。 
加 余下 的 代码 与 示例 19-24 一 样 ， 不 过 这 里 可 以 使 用 内 置 的 
getattr 和 setattr 函数 ， 而 不 用 处 理 instance. dict J&S 
PE 
那么 ， 你 喜欢 哪个 ? 示例 20-2 还 是 示例 20-5 ? 

喜欢 描述 符 类 那 种 方式 ， 主 要 有 下 列 两 个 原因 。 


。 描述 符 类 可 以 使 用 子 类 扩展 ; 若 想 重用 工厂 函数 中 的 代码 ， 除 
了 复制 粘贴 ， 很 难 有 其 他 方法 。 


。 与 示例 20-5 中 使 用 函数 属性 和 闭 包 保持 状态 相 比 ， 在 类 属性 
和 实例 属性 中 保持 状态 更 易于 理解 。 


此 外 ， 解 说 示例 20-5 时 ， 我 没有 男 机 器 和 小 怪兽 的 动力 。 特 性 工 


厂 函 数 的 代码 不 依赖 奇怪 的 对 象 关系 ， 而 描述 符 的 方法 中 有 名 为 
self 和 instance 的 参数 ， 表 明 里 面 涉及 奇怪 的 对 象 关系 。 

总 之 ， 从 某 种 程度 上 来 讲 ， 特 性 工厂 函数 模式 较 简 单 ， 可 是 描述 符 
类 方式 更 易 扩 展 ， 而 且 应 用 也 更 广泛 。 


20.1.3 LineItem 类 第 $ 版 : 一 种 新 型 描述 符 


我 们 虚构 的 有 机 食物 网 店 遇 到 一 个 问题 : 不 知 怎么 回 事 儿 ， 有 个 商品 的 
描述 信息 为 室 ， 导 致 无 法 下 订单 。 为 了 避免 出 现 这 个 问题 ， 我 们 要 再 创 
建 一 个 描述 符 ，NonBlank。 在 设计 NonBlank 的 过 程 中 ， 我 们 发 现 ， 
它 与 Quantity 描述 符 很 像 ， 只 是 验证 逻辑 不 同 。 


回想 Quantity 的 功能 ， 我 们 注意 到 它 做 了 两 件 不 同 的 事 : 管理 托管 实 
例 中 的 储存 属性 ， 以 及 验证 用 于 设置 那 两 个 属性 的 值 。 由 此 可 知 ， 我 们 
可 以 重 构 ， 并 创建 两 个 基 类 。 


AutoStorage 
自动 管理 储存 属性 的 描述 符 类 。 
Validated 


扩展 AutoStorage 类 的 抽象 子 类 ， 履 盖 set _ 方法 ， 调 用 必须 
由 子 类 实现 的 validate 方法 。 


我 们 稍 后 会 重 写 Quantity 类 ， 并 实现 NonBlank， 让 它 继承 
Validated 类 ， 只 编写 validate 方法 。 类 之 间 的 关系 见 图 20-5。 


«descriptor» 
Quantit 
ed 
AutoStorage «descriptor» 
人 validate 
_ counter Validated 4 
storage_name K 


=“ z 
et validate «descriptor» 
一 网 一 NonBlank 


_ set__ 


DEERE 


图 20-$， 几 个 描述 符 类 的 层次 结构 。Autostorage 基 类 负责 自动 存 
储 属性 ;Validated 类 做 验证 ， 把 职责 委托 给 抽象 方法 
validate; Quantity 和 NonBlank 是 Validated 的 具体 子 类 


Validated、Quantity 和 NonBlank 三 个 类 之 间 的 关系 体现 了 模板 方 
法 设计 模式 。 具 体 而 言 ，Validated. set _ 方法 正 是 Gamma 等 四 人 
所 描述 的 模板 方法 的 例证 : 


一 个 模板 方法 用 一 些 抽 象 的 操作 定义 一 个 算法 ， 而 子 类 将 重 定义 这 
些 操 作 以 提供 具体 的 行为 。4 


4《 设 计 模 式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 215 页 。 


这 里 ， 抽 象 的 操作 是 验证 。 示 例 20-6 列 出 图 20-5 中 各 个 类 的 实现 。 
示例 20-6 model v5.py: 重 构 后 的 描述 符 类 > 


5 因为 20.5 节 有 文档 字符 串 的 截图 ， 为 了 保持 一 致 ， 所 以 这 里 的 文档 字符 串 不 翻译 。 一 一 译 者 
注 


import abc 


class AutoStorage: @ 
_ Counter = @ 


def _ init__(self): 
cls = self. class _ 


prefix = cls. name _ 

index = cls. counter 

self.storage name = '_{}#{}'.format(prefix, index) 
cls.__ counter += 1 


def _get_ (self, instance, owner): 
if instance is None: 
return self 
else: 
return getattr(instance, self.storage_ name) 


def _set (self, instance, value): 
setattr(instance, self.storage_ name, value) (2) 


class Validated(abc.ABC, AutoStorage): © 


def _set (self, instance, value): 
value = self.validate(instance, value) @ 
super(). set (instance, value) © 


@abc.abstractmethod 
def validate(self, instance, value): © 
"""return validated value or raise ValueError 


class Quantity(Validated): @ 
"""a number greater than zero""" 
def validate(self, instance, value): 
if value <= ð: 
raise ValueError('value must be > @') 
return value 


class NonBlank(Validated): 
"""a string with at least one non-space character""" 
def validate(self, instance, value): 
value = value.strip() 
if len(value) == @: 
raise ValueError('value cannot be empty or blank’) 
return value QO 


@ AutoStorage 类 提供 了 之 前 Quantity 描述 符 的 大 部 分 功能 .……. 


四 .……. 验 证 除外 。 

@ Validated 是 抽象 类 ， 不 过 也 继承 自 AutoStorage 类 。 

Oset 方法 把 验证 操作 委托 给 validate 方法 .…… 

@ ..……. 然 后 把 返回 的 value 传 给 超 类 的 set _ ”方法 ， 存 储 值 。 

O 在 这 个 类 中 ，validate 是 抽象 方法 。 

@ Quantity 和 NonBlank 都 继承 白 Validated 类 。 

O 要 求 具体 的 validate 方法 返回 验证 后 的 值 ， 借 机 可 以 清理 、 转 换 或 
soe 这 里 ， 我 们 把 value 首尾 的 空白 去 掉 ， 然 后 将 其 
model v5.py 脚本 的 用 户 不 需要 知道 全 部 细节 。 用 户 只 需 知 道 ， 他 们 可 


以 使 用 Quantity 和 NonBlank 自动 验证 实例 属性 。 参 见 示 例 20-7 中 的 
最 新 版 LineItem 2. 


示例 20-7 bulkfood v5.py: 使 用 Quantity 和 NonBlank 描述 符 的 
LineItem 类 


import model v5 as model @ 


class LineItem: 
description = model.NonBlank() @ 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ 导入 model_v5 模块 ， 指 定 一 个 更 友好 的 名 称 。 


© 使 用 model.NonBlank 描述 符 。 其 余 的 代码 没 变 。 


ASE TAS LAS LineItem 示例 演示 了 描述 符 的 典型 用 途 一 一 管理 数据 
属性 。 这 种 描述 符 也 叫 履 盖 型 描述 符 ， 因 为 描述 符 的 set_ 方法 使 
用 托管 eee ‘i WFR) 了 要 设置 的 属性 。 不 过 

也 有 非 履 兰 型 措 述 待 。 下 一 节 会 详 述 这 两 种 描述 符 之 间 的 区 列 。 


20.2 7 m AY AE Ae m E FHI FY EL 


如 前 所 述 ，Python 存 取 属 性 的 方式 特别 不 对 等 。 通 过 实例 读 取 属性 时 ， 

通常 返回 的 是 实例 中 定义 的 属性 ; 但 是 ， 如 果实 例 中 没有 指定 的 属性 ， 

那么 会 获取 类 属性 。 而 为 实例 中 的 属性 赋值 时 ， 通 常会 在 实例 中 创建 属 
性 ， 根 本 不 影响 类 。 


这 种 不 对 等 的 处 理 方式 对 描述 符 也 有 影响 。 其 实 ， 根 据 是 否定 义 

_ set_ 方法， 描述 符 可 分 为 两 大 类 。 知 想 观 察 这 两 类 描述 符 的 行为 差 
0 我 们 将 使 用 示例 20-8 中 的 代码 作为 接 下 来 几 
TRAR E o 


` 在 示例 20-8 F, 每 个 get 和 set 方法 都 调用 了 
print_args 函数 ， 使 调用 方式 易于 阅读 。 没 必要 深入 理解 
print_args 函数 及 辅助 函数 cls_name 和 display， 因 此 不 要 花 
心思 研究 它们 。 


示例 20-8 descriptorkinds.py: 几 个 简单 的 类 ， 用 于 研究 描述 符 的 
8 mT AN 


HEH 辅助 函数 ， 仅 用 于 显示 ### 


def cls_name(obj_or_cls): 
cls = type(obj_or_cls) 
if cls is type: 
cls = obj_or_cls 
return cls. name .split('.')[-1] 


def display(obj): 
cls = type(obj) 
if cls is type: 
return ‘<class {}>'.format(obj. name ) 
elif cls in [type(None), int]: 
return repr(obj) 
else: 
return '<{} object>'.format(cls_name(obj) ) 


def print_args(name, *args): 
pseudo _args = ', '.join(display(x) for x in args) 
print('-> {}.__{}__({})'.format(cls_name(args[@]), name, pseudo_args)) 


HHH 对 这 个 示例 重要 的 类 ### 


class Overriding: © 


""" 也 称 数据 描述 符 或 强制 描述 符 """ 


def _get_ (self, instance, owner): 
print_args('get', self, instance, owner) @ 


def _set (self, instance, value): 


print_args('set', self, instance, value) 


class OverridingNoGet: © 
eA get “方法 的 覆盖 型 描述 符 """ 


def _set (self, instance, value): 
print_args('set', self, instance, value) 


class NonOverriding: @ 
""" 也 称 非 数据 描述 符 或 遮盖 型 描述 符 """ 


def _ get (self, instance, owner): 
print args('get', self, instance, owner) 


class Managed: © 
over = Overriding() 
over_no_get = OverridingNoGet() 
non_over = NonOverriding() 


def spam(self): © 
print('-> Managed.spam({})‘'.format(display(self) ) ) 


OA get fl set 方法 的 典型 覆盖 型 描述 符 。 


各 个 摘 述 符 的 每 个 方法 都 调用 了 print_args pf 


OLA get ”方法 的 覆盖 型 描述 符 。 

四 没有 _ set _ 方法， 所 以 这 是 非 履 盖 型 描述 符 。 

加 托管 类 ， 使 用 各 个 描述 符 类 的 一 个 实例 。 

@ spam 方法 放 在 这 里 是 为 了 对 比 ， 因 为 方法 也 是 描述 符 。 

在 接 下 来 的 几 节 中 ， 我 们 要 分 析 对 Managed 类 及 其 实例 做 属性 读 写 时 
的 行为 ， 还 会 讨论 所 定义 的 各 个 摘 述 符 。 

20.2.1 72 an FIA 

实现 set_ FEMA TE te IAT, AA PA IA A eR 
属性 ， 但 是 实现 set _ Wea, SERS PIR MEN MAE. 
示例 20-2 就 是 这 样 实现 的 。 特 性 也 是 履 盖 型 描述 符 : 如 果 没 提供 设 值 
函数 ，property 类 中 的 set_ ”方法 会 抛 出 AttributeError 异常 ， 


旨 明 那个 属性 是 只 读 的 。 我 们 可 以 使 用 示例 20-8 中 的 代码 测试 履 兰 型 
描述 符 的 行为 ， 如 示例 20-9 所 示 。 


示例 20-9 履 盖 型 描述 符 的 行为 ， 其 中 obj.over 是 Overriding 
类 《〈 见 示例 20-8) 的 实例 


>>> obj = Managed() © 

>>> obj.over @ 

-> Overriding. get __(<Overriding object>, <Managed object>, 
<class Managed>) 

>>> Managed.over © 

-> Overriding. get __(<Overriding object>, None, <class Managed>) 

>>> obj.over = 7 

-> Overriding. set __(<Overriding object>, <Managed object>, 7) 

>>> obj.over © 

-> Overriding. get __(<Overriding object>, <Managed object>, 
<class Managed>) 

>>> obj.__dict_['over']=8 © 

>>> vars(obj) @ 

{'over': 8} 

>>> obj.over 日 

-> Overriding. get (<Overriding object>, <Managed object>, 
<class Managed>) 


@ 创建 供 测试 使 用 的 Managed 对 象 。 


© obj .over 触发 描述 符 的 ”get “方法 ， 第 二 个 参数 的 值 是 托管 
例 obj- 


© Managed.over 触发 描述 符 的 ”get _ 方法 ， 第 二 个 参数 
(instance) 的 值 是 None。 


O 为 obj.over 赋值 ， 触 发 描述 符 的 _set _ 方法 ， 最 后 一 个 参数 的 
值 是 7。 


加 ÈR obj .over， 仍 会 触及 描述 符 的 ”get We. 
O 跳 过 描述 符 ， 直 接 通 过 obj. dict 属性 设 值 。 
© 确认 值 在 obj. dict 属性 中 ， 在 over 键 名 下 。 


@ 然而 ， 即 使 是 名 为 over 的 实例 属性 ，Managed .over 描述 符 仍 会 履 
a LAX obj .over 这 个 操作 。 


20.2.2 WA get 方法 的 覆盖 型 描述 符 


通常 ， 履 盖 型 描述 符 既 会 实现 ”set ”方法 ， 也 会 实现 get Ù 

法 ， 不 过 也 可 以 只 实现 set ”方法 ， 如 示例 20-1 所 示 。 此 时 ， 只 有 
写 操作 由 描述 符 处 理 。 通 过 实例 读 取 描 述 符 会 返回 描述 符 对 象 本 身 ， 因 
为 没有 处 理 读 操作 的 ”get _ 方法。 如果 直接 通过 实例 的 dict 

属性 创建 同名 实例 属性 ， 以 后 再 设置 那个 属性 时 ， 仍 会 由 set Ù 
法 插手 接管 ， 但 是 读 取 那个 属性 的 话 ， 就 会 直接 从 实例 中 返回 新 赋予 的 
值 ， 而 不 会 返回 描述 符 对 象 。 也 就 是 说 ， 实 例 属性 会 遮盖 描述 符 ， 不 过 
只 有 读 操 作 是 如 此 。 参见 示例 20-10。 


示例 20-10 没有 __get__ Fie maa, HP 
obj.over_no_get 是 OverridingNoGet 类 ( 见 示例 20-8) 的 实 
例 


>>> obj.over no get © 
<__main__.OverridingNoGet object at @x665bcc> 
>>> Managed.over_no get @ 


<__main__.OverridingNoGet object at @x665bcc> 

>>> obj.over_no get = 7 © 

-> OverridingNoGet. set __(<OverridingNoGet object>, <Managed object>, 7) 
>>> obj.over_no_get 

<__main__.OverridingNoGet object at @x665bcc> 

>>> obj.__dict__['over_no get']=9 © 

>>> obj.over_no get © 

9 

>>> obj.over_no get = 7 @ 

-> OverridingNoGet. set __(<OverridingNoGet object>, <Managed object>, 7) 
>>> obj.over_no get © 

9 


@ 这 个 履 盖 型 描述 符 没 有 _get_ 77k, ltt, obj.over_no_get 从 
类 中 获取 描述 符 实例 。 


O 直接 从 托管 类 中 读 取 描述 符 实例 也 是 如 此 。 
© 为 obpj.over_no_get 赋值 会 触发 描述 符 的 set ”方法 。 


O 因为 ”set _ 方法 没有 修改 属性 ， 所 以 在 此 读 取 obj.over_no_get 
获取 的 仍 是 托管 类 中 的 描述 符 实例 。 


O 通过 实例 的 _ dict _ 属性 设置 名 为 over_no_get 的 实例 属性 。 


O 现在 ，over_no_get 实例 属性 会 包 盖 描述 符 ， 但 是 只 有 读 操作 是 如 
此 。 

@ W obj.over_no_get 赋值 ， 仍 然 经 过 描述 符 的 __set _ 方法 处 
理 。 


@ 但 是 读 取 时 ， 只 要 有 同名 的 实例 属性 ， 描 述 符 就 会 被 遮盖 。 
20.2.3” 非 履 六 型 描述 符 


没有 实现 _set_ “方法 的 描述 符 是 非 细 凋 型 描述 符 。 如 果 设 置 了 同名 
的 实例 属性 ， 搬 述 符 会 被 遮盖 ， 致 使 描述 符 无 法 处 理 那 个 实例 的 那个 属 
性 。 方 法 是 以 非 履 盖 型 描述 符 实现 的 。 示 例 20-11 展示 了 对 一 个 非 覆 盖 
型 撕 述 符 的 操作 。 


示例 20-1. 非 履 盖 型 描述 符 的 行为 ， 其 中 obj.non_over 是 
NonOverriding 类 【〔( 见 示例 20-8) 的 实例 


>>> obj = Managed() 

>>> obj.non over © 

-> NonOverriding. get (<NonOverriding object>, <Managed object>, 
<class Managed>) 

>>> obj.non over = 7 @ 

>>> obj.non over © 

7 


>>> Managed.non_over @ 

-> NonOverriding. get (<NonOverriding object>, None, <class Managed>) 

>>> del obj.non over © 

>>> obj.non_over © 

-> NonOverriding. get (<NonOverriding object>, <Managed object>, 
<class Managed>) 


@ obj .non_over 触发 描述 符 的 ”get ”方法 ， 第 二 个 参数 的 值 是 
obj. 


© Managed.non_over 是 非 履 盖 型 描述 符 ， 因 此 没有 干涉 赋值 操作 的 
set 方法 。 


O 现在 ，obj 有 个 名 为 non_over 的 实例 属性 ， 把 Managed 类 的 同名 
描述 符 属 性 遮盖 掉 。 


© Managed.non_over 描述 符 依 然 存在 ， 会 通过 类 截获 这 次 访问 。 
O 如 果 把 non_over 实例 属性 删除 了 ..……. 


O 那么 ， 读 取 obj.non_over 时 ， 会 触发 类 中 描述 符 的 ”get Ù 
法 ; 但 要 注意 ， 第 二 个 参数 的 值 是 托管 实例 。 


| 

Be Python Dik FE PT ek LES IN Ze EAS TA ART 
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数据 描述 符 或 遮盖 型 插 述 符 。 


在 上 述 几 个 示例 中 ， 我 们 为 儿 个 与 描述 符 同 名 的 实例 属性 赋 了 值 ， 结 果 
HIATT HOE AA _ set_ 方法 而 有 所 不 同 。 


依附 在 类 上 的 描述 符 无 法 控制 为 类 属性 赋值 的 操作 。 其 实 ， 这 意味 着 为 
类 属性 赋值 能 覆盖 描述 符 属 性 ， 正 如 下 一 节 所 述 的 。 

20.2.4 ERK THI IT 

不 管 描述 符 是 不 是 覆盖 型 ， 为 类 属性 赋值 都 能 覆盖 描述 符 。 这 是 一 种 猴 
子 补丁 技术 ， 不 过 在 示例 20-12 中 ， 我 们 把 描述 符 替 换 成 了 整数 ， 这 其 
实 会 导致 依赖 描述 符 的 类 不 能 正确 地 执行 操作 。 


示例 20-12 ”通过 类 可 以 履 兰 任何 描述 符 


>>> obj = Managed() © 
>>> Managed.over = 1 @ 
>>> Managed.over_no_get = 2 


>>> Managed.non_over = 3 
>>> obj.over, obj.over no get, obj.non_over © 
(1, 2, 3) 


@ 为 后 面 的 测试 新 建 一 个 实例 。 
O E mAP TIA RTE o 
O 描述 符 真 的 不 见 了 。 


示例 20-12 揭示 了 读 写 属性 的 为 一 种 不 对 等 : 读 类 属性 的 操作 可 以 由 依 
附 在 托管 类 上 定义 有 get_” 方 法 的 描述 符 处 理 ， 但 是 写 类 属性 的 操 
作 不 会 由 依附 在 托管 类 上 定义 有 __set_ 方法 的 描述 符 处 理 。 


AI 在 想 控制 设置 类 属性 的 操作 ， 要 把 摘 述 符 依 附 在 类 的 类 上 ， 
即 依附 在 元 类 上 。 默 认 情 况 下 ， 对 用 户 定义 的 类 来 说 ， 其 元 类 是 
type， 而 我 们 不 能 为 type 添加 属性 。 不 过 在 第 21 章 ， 我 们 会 自 
己 创 建 元 类 。 


下 面 我 们 调转 话题 ， 分 析 Python 是 如 何 使 用 描述 符 实现 方法 的 。 


20.3 “方法 是 描述 符 


在 类 中 定义 的 函数 属于 绑 定 方法 (bound method) ， 因 为 用 户 定义 的 函 
数 都 有 get _ 方法 ， 所 以 依附 到 类 上 时 ， 就 相当 于 拉 述 符 。 示 例 20- 
13 演示 了 从 示例 20-8 里 定义 的 Managed 类 中 读 取 spam 方法 。 


示例 20-13 ”方法 是 非 履 再 型 描述 符 


>>> obj = Managed() 

>>> obj.spam © 

<bound method Managed.spam of <descriptorkinds.Managed object at @x74c8@c 
>>> Managed.spam @ 


<function Managed.spam at @x734734> 
>>> obj.spam = 7 © 

>>> obj.spam 

7 


@ obj .spam 获取 的 是 绑 定 方法 对 象 。 
© {HÆ Managed. spam 获取 的 是 函数 。 


© 如 果 为 obj .spam 赋值 ， 会 遮盖 类 属性 ， 导 致 无 法 通过 obj 实例 访 
问 spam 方法 。 


函数 没有 实现 ”set ”方法 ， 因 此 是 非 履 盖 型 描述 符 ， 如 示例 20-13 中 
的 最 后 一 行 所 示 。 


从 示例 20-13 中 还 可 以 看 出 一 个 重要 信息 obj. spam 和 

Managed. spam 获取 的 是 不 同 的 对 象 。 与 描述 符 一 样 ， 通 过 托管 类 访问 
IN, PALA get 方法 会 返回 自 映 的 引用 。 但 是 ， 通 过 实例 访问 
IN, PALA get ”方法 返回 的 是 绑 定 方法 对 象 : 一 种 可 调用 的 对 
象 ， 里 面包 装着 函数 ， 并 把 托管 实例 〈 例 如 obj) 绑 定 给 函数 的 第 一 个 
参数 (Hl self) ， 这 与 functools.partial 函数 的 行为 一 致 (BR 
5.10.2 F) 。 


为 了 深入 理解 这 种 机 制 ， 请 看 示例 20-14. 


示例 20-14 method is descriptor.py: Text 类 ， 继 承 自 
UserString 类 


import collections 


class Text(collections.UserString): 


def _repr_ (self): 
return 'Text({!r})'.format(self.data) 


def reverse(self): 
return self[::-1 


下 面 来 分 析 Text .reverse 方法 ， 如 示例 20-15 所 示 。 
示例 20-15 测试 一 个 方法 


>>> word = Text('forward') 

>>> word © 

Text('forward' ) 

>>> word.reverse() @ 

Text('drawrof' ) 

>>> Text. reverse(Text('backward')) © 
Text('drawkcab' ) 

>>> type(Text.reverse), type(word.reverse) @ 
(<class 'function'>, <class 'method'>) 

>>> list(map(Text.reverse, ['repaid', (10, 20, 30), Text('stressed')])) 
['diaper', (30, 20, 10), Text('desserts')] 

>>> Text.reverse. get (word) © 

<bound method Text.reverse of Text('forward' )> 
>>> Text.reverse. get (None, Text) @ 
<function Text.reverse at @x101244e18> 

>>> word.reverse © 

<bound method Text.reverse of Text('forward' )> 
>>> word.reverse. self © 

Text('forward' ) 

>>> word.reverse. func__ is Text.reverse 四 
True 


@ Text 实例 的 repr 方法 返 类 似 Text 构造 方法 调用 的 字符 串 ， 
可 用 于 创建 相同 的 实例 。 


© reverse 方法 返回 反 向 拼写 的 单词 。 
© 在 类 上 调用 方法 相当 于 调用 函数 。 
O 注意 类 型 是 不 同 的 ， 一 个 是 function， 一 个 是 method. 


O Text.reverse 相当 于 函数 ， 甚 至 可 以 处 理 Text 实例 之 外 的 其 他 对 
象 。 


@ 函数 都 是 非 绑 盖 型 描述 符 。 在 函数 上 调用 __get_ 方法 时 传 入 实 
例 ， 得 到 的 是 绑 定 到 那个 实例 上 的 方法 。 


O 调用 函数 的 ”get ”方法 时 ， 如 果 instance 参数 的 值 是 None， 那 
么 得 到 的 是 函数 本 喘 。 


O word.reverse 表达 式 其 实 会 调用 
Text.reverse. get (word), REII MARENE. 


O 绑 定 方法 对 象 有 个 _self__ 属 性， 其 值 是 调用 这 个 方法 的 实例 引 
用 。 


O 绑 定 方法 的 _func__ 属性 是 依附 在 托管 类 上 那个 原始 函数 的 引用 。 
绑 定 方法 对 象 还 有 个 call 方法 ， 用 于 处 理 真 正 的 调用 过 程 。 这 个 
方法 会 调用 func 属性 引用 的 原始 函数 ， 把 函数 的 第 一 个 参数 设 为 
绑 定 方法 的 __self_ 属 性。 这 束 是 形 参 self 的 隐 式 绑 定 方式 。 
函数 会 变 成 绑 定 方法 ， 这 是 Python 语言 底层 使 用 描述 符 的 最 好 例证 。 


了 解 描述 符 和 方法 的 运作 方式 之 后 ， 下 面 讨论 用 法 方面 的 一 些 实用 
建议 。 


20.4” 摘 述 从 用 法 建议 
下面 根据 刚刚 论述 的 描述 符 特征 给 出 一 些 实用 的 结论 。 
使 用 特性 以 保持 简单 
内 置 的 property 类 创建 的 其 实 是 履 盖 型 描述 符 ，_ set _ 方法 和 
_ get_ ”方法 都 实现 了 ， 即 便 不 定义 设 值 方法 也 是 如 此 。 特 性 的 
__set ”方法 默认 抛 出 AttributeError: can't set attribute, 
因此 创建 只 读 属性 最 简单 的 方式 是 使 用 特性 ， 这 能 避免 下 一 条 所 述 的 问 


jel 


只 读 描述 符 必 须 有 __set__ 方法 


如 果 使 用 描述 符 类 实现 只 读 属性 ， 要 记 住 ，_get 和 set 
两 个 方法 必须 都 定义 ， 否 则 ， 实 例 的 同名 属性 会 速 盖 措 述 符 。 只 读 属 性 
的 “set 方法 只 需 抛 出 AttributeError 异常 ， 并 提供 合适 的 错误 
消息 。 


6Python 为 此 类 异常 提供 的 错误 消息 不 一 致 。 如 果 试 图 修改 complex 的 c.real 属性 ， 那 么 得 
到 的 错误 消息 是 AttributeError: read-only attribute; 但 是 ， 如 果 试 图 修改 
c.conjugat (e complex 对 象 的 方法 ) ， 那 么 得 到 的 错误 消息 是 AttributeError: 
'complex' object attribute ‘conjugate’ is read-only. 


用 于 验证 的 描述 符 可 以 只 有 set 方法 


对 仅 用 于 验证 的 描述 符 来 说 ，__ set_ ”方法 应 该 检查 value 参数 
获得 的 值 ， 如 果 有 效 ， 使 用 描述 符 实例 的 名 称 为 键 ， 直 接 在 实例 的 
_ dict ”属性 中 设置 。 这 样 ， 从 实例 中 该 取 同 名 属性 的 速度 很 快 ， 
为 不 用 经 过 __get__ 方法 处 理 。 参 见 示例 20-1 中 的 代码 。 


仅 有 __get__ 方 法 的 描述 符 可 以 实现 高 效 缓存 
如 果 只 编写 了 __get_ 方法， 那么 创建 的 是 非 绑 兰 型 描述 符 。 这 


种 描述 符 可 用 于 执行 攻 些 耗费 资源 的 计算 ， 然 后 为 实例 设置 同名 属性 ， 
绥 存 结果 。 同 名 实例 属性 会 遮 瘟 描 述 符 ， 因 此 后 续 访 问 会 直接 从 实例 的 


dict _ 属性 中 获取 值 ， 而 不 会 再 触发 描述 符 的 get 方法， 
非特 殊 的 方法 可 以 被 实例 属性 遮盖 


由 于 函数 和 方法 只 实现 了 get ”方法 ， 它 们 不 会 处 理 同 名 实例 
属性 的 赋值 操作 。 因 此 ， 像 my_obj.the_method = 7 这 样 简单 赋值 之 
后 ， 后 续 通过 该 实例 访问 the_method 得 到 的 是 数字 7 一 一 但 是 不 影响 
类 或 其 他 实例 。 然 而 ， 特 殊 方 法 不 受 这 个 问题 的 影响 。 解 释 器 只 会 在 类 
中 寻找 特殊 的 方法 ， 也 就 是 说 ，repr(x) 执行 的 其 实 是 
x. class . repr (x)， 因 此 x 的 _repr 属性 对 repr(x) 方 
法 调用 没有 影响 。 出 于 同样 的 原因 ， 实 例 的 __getattr__ 属性 不 会 破 
坏 常 规 的 属性 访问 规则 。 


实例 的 非特 殊 方 法 可 以 被 轻松 地 上 覆 再 ， 这 听 起 来 不 可 靠 且 容易 出 错 ， 可 
古 在 我 使 用 Python 的 15 年 中 从 未 受 此 困扰 。 然 而 ， 如 有 果 要 创建 大 量 动 
态 属 性 ， 属 性 名 称 从 不 受 目 己 控制 的 数据 中 获取 〈 像 本 章 前 面 那样 ) ， 
那么 你 应 该 知道 这 种 行为 ， 或 许 你 还 可 以 实现 某 种 机 制 ， 过 小 或 转 义 动 
态 属 性 的 名 称 ， 以 维持 数据 的 健全 性 。 


` 示例 19-6 中 的 FrozenJSON 类 不 会 出 现实 例 属 性 遮盖 方法 的 
问题 ， 因 为 那个 类 只 有 几 个 特殊 方法 和 一 个 build 类 方法 。 只 要 
通过 类 访问 ， 类 方法 就 是 安全 的 ， 在 示例 19-6 中 我 就 是 这 么 调用 
FrozenJSON.build 方法 的 一 一 在 示例 19-7 中 蔡 换 成 _new_ 方 
法 了 。Record 类 【( 见 示 例 19-9 和 示例 19-11) 及 其 子 类 也 是 安全 
的 ， 因 为 只 用 到 了 特殊 的 方法 、 类 方法 、 静 态 方 法 和 特性 。 特 性 是 
数据 描述 符 ， 因 此 不 能 被 实例 属性 窗 盖 。 


讨论 特性 时 讲 了 两 个 功能 ， 这 里 讨论 的 描述 符 还 未 涉及 ， 结 束 本 章 之 前 
我 们 来 讲 讲 : 文 要 和 对 删除 托管 属性 的 处 理 。 


20.5 HERRE MSCS R AM 
作 


描述 符 类 的 文档 字符 串 用 于 注解 托管 类 中 的 各 个 摘 述 符 实 例 。 几 20-6 
中 的 截图 是 LineItem 类 〈 见 示例 20-7) 及 Quantity 和 NonBlank fii 
述 符 ( 见 示例 20-6) 的 帮助 界面 。 


提供 的 信息 有 点 不 足 。 对 LineItem 类 来 说 ， 如 果 能 说 明 weight 必须 
以 千克 为 单位 就 好 了 。 这 对 特性 来 说 是 小 菜 一 碟 ， 因 为 各 个 特性 只 处 理 
特定 的 托管 属性 。 可 是 对 描述 符 来 说 ， weight 和 price 使 用 的 都 是 
Quantity 描述 符 类 。 7 


可 
— 


“定制 各 个 描述 符 实例 的 帮助 文本 特别 难 。 有 一 种 方法 是 为 各 个 描述 符 实 例 动态 构建 包装 类 。 


讨论 特性 时 还 讲 了 一 个 细节 ， 而 这 里 讨论 的 描述 符 没 有 涉及 ， 那 就 是 对 
删除 托管 属性 的 处 理 。 在 描述 符 类 中 ， 实 现 常规 的 __get__“ 和 

(或 ) set “方法 之 外 ， 可 以 实现 delete_ “方法 ， 或 者 只 实现 
_ delete “方法 做 到 这 一 点 。 时 间 充 足 的 读者 可 以 编写 一 个 没有 实际 
作用 的 描述 符 类 实现 _ delete _ 方法 ， 就 当 作 练习 。 


eoo 1. Python 
lontra:descriptors luciano$ python3 -i bulkfood_v5.py 


>>> helpCLineItem.weight) 


-1 less . x 


| 


class Quantity(Validated) 


a number greater than zero 


Method resolt 
Quantity 
Validates 
abc. ABC 
AutoStor¢ 
builtins 


Methods defii 


validate(sel} 


Data and oth 


_-abstractme} 


Methods inhe 


Help on Quantity in module model_vS object: 


1. Python a 


lontra:descriptors luciano$ python3 -i bulkfood_vS.py 


>>> help(LineItem.weight) 


>>> help(LineItem)[] 
eoo 1, less 
Help on class LineItem in module __main__: 


y 


class LineItem(builtins.object) 


Methods defined here: 
init__(self, description, weight, price) 
subtotal(self) 


Data descriptors defined here: 


sdk 
dictionary for instance variables (if defined) 


—_weakref__ 
list of weak references to the object (if defined) 


description 
a string with at least one non-space character 


price 
a number greater than zero 


图 20-6: 在 Python 控制 台中 执行 help(LineItem.weight) 和 
help(LineItem) 命令 时 的 截图 


20.6 ”本 章 小 结 


本 章 的 第 一 个 示例 接续 第 19 章 的 LineItem 系列 示例 。 在 示例 20-1 
中 ， 我 们 把 特性 奉 换 成 了 描述 符 。 我 们 知道 ， 描 述 符 类 的 实例 能 用 作 托 
管 类 的 属性 。 为 了 讨论 这 个 机 制 ， 我 们 引入 了 几 个 特殊 的 术语 ， 例 如 托 
管 实例 和 储存 属性 。 


在 20.1.2 节 ， 我 们 把 声明 Quantity 描述 符 所 需 的 storage_name 参数 
去 掉 了 ， 那 个 参数 多 余 且 容易 出 错 ， 因 为 实例 化 描述 符 时 指定 的 名 称 始 
终 与 赋值 语句 左边 的 属性 名 一 样 。 我 们 采用 的 方法 是 ， 结 合 描述 符 类 的 
名 称 和 类 中 的 计数 器 ， 生 成 独一无二 的 storage_name〔 例 如 
”Quantity#1' ) 。 


接 下 来 ， 本 章 对 比 了 描述 符 类 与 使 用 函数 式 纺 程 方式 构建 的 特性 工厂 函 
数 ， 分 析 了 二 者 的 代码 量 和 优 缺 点 。 有 时 后 者 更 合适 也 更 简单 ， 但 是 前 
者 更 灵活 ， 而 且 是 标准 方案 。20.1.3 节 利 用 了 描述 符 类 的 关键 优势 : 通 
过 子 类 共有 至 代码 ， 构 建 具有 部 分 相同 功能 的 专用 描述 符 。 


然后 ， 我 们 分 析 了 有 或 没有 __set_ 方法 时 ， 描 述 符 的 行为 有 什么 不 
同 ， 了 解 了 履 兰 型 描述 竺 和 非 履 盖 型 描述 符 之 间 的 重要 兰 异 。 通 过 详细 
HOON, BUN Bas SSR RETIN SE, DA SARIS GUE tt. BODE ES BH 


本 章 随 后 分 析 了 非 履 盖 型 描述 符 的 一 种 具体 类 型 : 方法。 通过 控制 台中 
的 测评 可知， 通过 实例 访问 依附 在 类 上 的 函数 时 ， 经 由 描述 符 协议 的 处 
H, LAM TE 


最 后 ， 我 们 对 描述 符 的 用 法 给 出 了 一 些 建议 ， 还 简要 说 明了 如 何 删除 描 
IBF AS ICE o 

这 一 草 我 们 遇 到 了 几 个 只 有 类 元 编程 能 解决 的 问题 ， 这 些 问题 留 到 第 
21 章 解决 。 


20.7 ”延伸 阅读 


除了 语言 参考 手册 中 必 读 的 “Data model” — 
Chttps://docs.python.org/3/reference/datamodel.html) , Raymond Hettinger 

写 的 “Descriptor HowTo 

Guide” Chttps://docs.python.org/3/howto/descriptor.html) 也 值得 一 读 

这 是 Python 官方 文档 HowTo 合集 Chttps://docs.python.org/3/howto/) 中 

的 一 篇 


对 Python 对 象 模型 相关 的 话题 来 说 ，Alex Martelli 写 的 《Python 技术 手 
册 (第 2 版 ”》 一 书 虽 然 有 点 过 时 ， 但 仍然 提供 了 权威 旦 客观 的 论述 : 
本 章 讨论 的 关键 机 制 在 Python 2.2 中 引入 ， 远 在 那 本 书 涵盖 的 2.5 版 之 
前 。Martelli 还 做 了 一 次 题 为 "Python's Object Model” 的 演讲 ， 深 入 探讨 
了 特性 和 描述 符 [ 幻灯 片 Chttp://www.aleax.it/Python/nylug05_om.pdf) , 
视频 Chttps://www.youtube.com/watch?v=VOzvpHoYQoo) ]， 强 烈 推 荐 观 
看 。 


至 于 针对 Python 3 的 实例 ，David Beazley 与 Brian K. Jones 的 《Python 
Cookbook ($E 3 WO 中 文 版 》 一 书 中 有 很 多 说 明 摘 述 符 的 诀 备 ， 推 荐 阅 
读 的 有 “6.12 读 取 髓 套 型 和 大 小 可 变 的 二 进 制 结构 “8.10 让 属性 具有 情 
性 求 值 的 能 力 ”8.13 实现 一 种 数据 模型 或 类 型 系 统 ” 和 “9.9 把 装饰 器 定 
义 成 类 ”。 最 后 一 PARES HRT pK BCR as. TIRE RI We AIA ELA 
用 的 深层 次 问题 ， 说 明了 如 何 使 用 有 ea 方法 的 类 实现 函数 装饰 
器 ;如 果 既 想 装饰 方法 又 想 装 饰 函 数 ， 还 要 实现 ”get _ 方法 。 


Kik 


self 的 问题 


“ 变 糟 更 好 ”(“Worse is Better”) 是 Richard P. Gabriel 在 “The Rise of 
Worse is Better” — X 

Chttp://dreamsongs.com/RiseOfWorselsBetter. html ) 中 提出 的 设计 思 
想 。 这 个 思想 的 第 一 要 义 是 “简单 ”对 此 ，Gabriel 说 道 : 


a 对 实现 和 接口 来 说 部 应 如 此 。 简 单 的 实现 
比 简单 的 接口 更 重要 。 简 单 是 设计 过 程 中 最 重要 的 考虑 因素 。 


RUN, Python 要 求 明 确 把 方法 的 第 一 个 参数 声明 为 self 是 “ 变 精 
更 好 ”思想 的 体现 。 这 样 ， 实 现 是 简单 了 《甚至 也 优雅 了 ) ， 但 却 
牺牲 了 用 户 接口 : 方法 的 签名 一 一 例如 def zfill(self, 
width) :一 一 在 外 观 上 与 pobox.zfill(8) 调用 不 匹配 。 


这 种 做 法 《以 及 使 用 self 这 个 标识 符 ) 由 Modula-3 语言 创造 ， 但 
是 与 Python 有 差异 : 在 Modula-3 中 ， 接 口 的 声明 与 实现 是 分 开 

的 ， 而 且 在 接口 声明 中 会 省 略 self 参数 ， 因 此 对 用 户 来 说 ， 接 口 
声明 中 的 方法 显示 的 参数 数量 与 真正 接受 的 参数 数量 完全 一 致 。 


在 这 方面 ，Python 有 一 项 改进 AH. MTA Pe MHS 
A (BR self 之 外 ) 方法 来 说 ， 如 果 用 户 调用 obj.meth(), Python 
2.7 会 抛 出 异常 ， 显 示 TypeError: meth() takes exactly 2 
arguments (1 given); 不 过 在 Python 3.4 中 ， 错 误 消 息 没 那么 难 
以 理解 了 ， 解 决 了 参数 数量 问题 ， 还 指出 了 缺失 的 参数 : meth() 


missing 1 required positional argument: 'x'. 


除了 要 明确 把 self 作为 参数 之 外 ， 限 制 必须 使 用 self 访问 实例 
属性 也 备 受 批评 。8 我 自己 并 不 介意 输入 self 限定 符 ， 这 样 便于 
把 局 部 变量 和 属性 区 分 开 。 我 介意 的 是 在 def 语句 中 使 用 self. 
但 是 我 已 经 习惯 了 。 


如 果 讨 大 Python 要 求 显 式 使 用 self， 可 以 想 想 JavaScript 中 隐 式 

的 this 那 变幻 英 测 的 语义 ， 这 样 感觉 束 会 好 多 了 。 像 这 样 使 

用 self 有 一 些 合理 之 处 ，Guido 在 他 的 博客 The History of Python 

中 写 了 一 篇 文章 ， 题 为 “Adding Support for User-defined Classes” 
Chttp://python-history. blogspot.com.br/2009/02/adding-support-for- 

user-defined-classes.html) ， 说 明了 这 些 原因 。 


8 例如 ，A. M. Kuchling 发 表 的 著名 文章 “Python Warts” CH 
档 : http://web.archive.org/web/20031002184114/www.amk.ca/python/writing/warts.html) 。Kuchling 
自己 并 不 讨厌 self 限定 符 ， 但 是 他 提 到 了 这 一 点 一 一 可 能 是 为 了 呼应 comp. lang.python 邮 
件 列 表 中 的 观点 。 
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第 21 章 类 元 编程 
(元 类 ) 是 深奥 的 知识 ，99% 的 用 户 都 无 需 关 注 。 如 果 你 想 知 道 是 


否 需 要 使 用 元 类 ， 我 告诉 你 ， 不 需要 (真正 需要 使 用 元 类 的 人 确信 
他 们 需要 ， 无 需 解释 原因 ) o! 


Tim Peters 


Timsort 算法 的 发 明 者 ， 活 跃 的 Python 贡献 者 


1 摘自 comp.lang.python 邮件 列表 中 对 “Acrimony in c.1p.” 话 题 的 回复 
(https//mail.python.org/pipermail/python-list/2002-December/134521.html〉。 前 言 中 引述 的 那 句 话 
也 是 出 自 这 篇 发 布 于 2002 年 12 月 23 日 的 消息 。TimBot 在 那天 获得 了 灵感 。 


类 元 编程 是 指 在 运行 时 创建 或 定制 类 的 技艺 。 在 Python 中 ， 类 是 一 等 对 
象 ， 因 此 任何 时 候 都 可 以 使 用 函数 新 建 类 ， 而 无 需 使 用 class 关键 
字 。 类 装饰 器 也 是 函数 ， 不 过 能 够 审查 、 修 改 ， 甚 至 把 被 装饰 的 类 蔡 换 
成 其 他 类 。 最 后 ， 元 类 是 类 元 编程 最 高 级 的 工具 : 使 用 元 类 可 以 创建 具 
有 茶 种 特质 的 全 新 类 种 ， 例 如 我 们 见 过 的 抽象 基 类 。 

元 类 功能 强大 ， 但 是 难以 掌握 。 类 装饰 器 能 使 用 更 简单 的 方式 解决 很 多 
问题 。 其 实 ， Python 2.6 引入 类 装饰 器 之 后 ， 元 类 很 难 使 用 真实 的 代码 
说 明 ， 因 此 我 不 会 像 前 面 的 革 市 那样 再 举 引导 示例 。 


本 章 还 会 谈 及 导入 时 和 运行 时 的 区 别 一 一 这 是 有 效 使 用 Python 元 编程 的 
重要 基础 。 


Bs 
这 是 一 个 令 人 兴奋 的 话题 ， 很 容易 让 人 志平 所 以 。 因 此 ， 进 入 本 章 
的 正文 之 前 ， 我 必须 告诫 你 : 


除非 开发 框 淋 ， 人 否则 不 要 编写 元 类 一 一 然而 ， 为 了 寻找 乐趣 ， 或 者 
练习 相关 的 概念 ， 可 以 这 么 做 。 


首先 ， 本 章 探 讨 如 何在 运行 时 创建 类 。 


21.1 类 工厂 函数 


本 书 多 次 提 到 标准 库 中 的 一 个 类 工厂 函数 
——collections.namedtuple. 我 们 把 一 个 闫 名 和 几 个 属性 名 传 给 这 
个 函数 ， 它 会 创建 一 个 tuple 的 子 类 ， 其 中 的 元 素 通 过 名 称 获取 ， 还 
为 调试 提供 了 友好 的 字符 串 表 示 形 式 (__repr__) 。 


有 时 ， 我 觉得 应 该 有 类 似 的 工 三 函数， 用 于 创建 可 变 对 象 。 假 设 我 在 编 
写 一 个 宠物 店 应 用 程序 ， 我 想 把 狗 的 数据 当 作 简单 的 记录 处 理 。 编 写 下 
面 的 样板 代码 让 人 厌烦 : 


class Dog: 
def _ init__(self, name, weight, owner): 
self.name = name 


self.weight = weight 
self.owner = owner 


TC... ASF RAPT HK. BRASS, HEFTE 
表示 形式 都 不 友好 : 


>>> rex = Dog('Rex', 30, 'Bob') 
>>> rex 
<__main__.Dog object at @x2865bac> 


参考 collections.namedtuple， 下 面 我 们 创建 一 个 
record_factory 函数 ， 即 时 创建 简单 的 类 (如 Dog) 。 这 个 函数 的 用 
法 如 示例 21-1。 


示例 21-1 测试 record factory 函数 ， 一 个 简单 的 类 工厂 函数 


record factory('Dog', ‘name weight owner') © 
Dog('Rex', 30, 'Bob') 

>> rex @ 

Dog(name='Rex', weight=30, owner='Bob' ) 

>>> name, weight, _ = rex 

>>> name, weight 

('Rex', 30) 


>>> Dog 
>>> rex 


>>> "{2}'s dog weighs {1}kg".format(*rex) @ 
"Bob's dog weighs 30kg" 

>>> rex.weight = 32 © 

>>> rex 

Dog(name='Rex', weight=32, owner='Bob' ) 

>>> Dog. mro QO 

(<class 'factories.Dog'>, <class ‘object'>) 


@ 这 个 工厂 函数 的 签名 与 namedtuple 类 似 : 先 写 类 名 ， 后 面 跟着 写 
在 一 个 字符 串 里 的 多 个 属性 名 ， 使 用 空格 或 逗号 分 开 。 


@ 友好 的 字符 串 表 示 形 式 。 

O 实例 是 可 达 代 的 对 象 ， 因 此 赋值 时 可 以 便利 地 拆 包 。 
O 传 给 Format eK By te A] ADF 

O 记录 实例 是 可 变 的 对 象 。 

O 新 建 的 类 继承 自 object， 与 我 们 的 工厂 函数 没有 关系 。 


record_factory 函数 的 代码 在 示例 21-2 中 。? 


“感谢 我 的 朋友 J.S. Bueno 的 建议 。 


示例 21-2 record factory.py: 一 个 简单 的 类 工厂 函数 


def record_factory(cls_name, field_names): 
try: 
field names = field_names.replace(',', ' ').split() © 
except AttributeError: # 不 能 调用 .replace 或 .split 方 法 
pass # 假定 field_names 本 就 是 标识 符 组 成 的 序列 
field names = tuple(field_names) @ 


def _init (self, *args, **kwargs): © 
attrs = dict(zip(self. slots , args)) 
attrs.update(kwargs) 
for name, value in attrs.items(): 
setattr(self, name, value) 


def _iter (self): @ 
for name in self. slots : 


yield getattr(self, name) 


def _repr_(self): © 


values = ', '.join('{}={!r}'.format(*i) for i 
in zip(self. slots , self)) 
return '{}({})'.format(self. class . name , values) 
cls attrs = dict( slots = field names, © 
_init = _init_, 
_iter = _iter_, 
_repr = _repr_) 


return type(cls_ name, (object,), cls_attrs) @ 


@ 这 里 体现 了 鸭子 类 型 : Se Eas BE AR? Field_names; 如 
oe field names 本 就 是 可 迭代 的 对 象 ， 一 个 元 素 对 应 
一 个 属性 名 。 


O 使 用 属性 名 构建 元 组 ， 这 将 成 为 新 建 类 的 __slots_ 属性 ， 此外， 
这 么 做 还 设 定 了 拆 包 和 字符 串 表 示 形 式 中 各 字段 的 顺序 。 


O 这 个 函数 将 成 为 新 建 类 的 __init_ 方法 。 参 数 有 位 置 参数 和 或) 
REFER 


四 实现 _ iter_ 函数， 把 类 的 实例 变 成 可 迭代 的 对 象 ， 按 照 
slots _ 设 定 的 顺序 产 出 字段 值 。 


回 和 迭代 slots 和 self， 生 成 友好 的 字符 串 表示 形式 。 

@ 组 建 类 属性 字典 。 

O 调用 type 构造 方法 ， 构 建新 类 ， 然 后 将 其 返回 。 

通常 ， 我 们 把 type 视 作 函 数 ， 因 为 我 们 像 函 数 那样 使 用 它 ， 例 如 ， 调 
用 type(my_object) 获取 对 象 所 属 的 类 一 一 作用 与 


my_object. class _ 相同。 然而，type 是 一 个 类 。 当 成 类 使 用 时 ， 
传 入 三 个 参数 可 以 新 建 一 个 类 : 


MyClass = type('MyClass', (MySuperClass, MyMixin), 
{'x': 42, 'x2': lambda self: self.x * 2}) 


[L CR 


type 的 三 个 参数 分 别 是 name、bases 和 dict。 最 后 一 个 参数 是 一 个 


映射 ， 指 定 新 类 的 属性 名 和 值 。 上 述 代码 的 作用 与 下 述 代 码 相同 : 


class MyClass(MySuperClass, MyMixin): 


x = 42 


def x2(self): 
return self.x * 2 


让 人 觉得 新 奇 的 是 ，type 的 实例 是 类 ， 例 如 这 里 的 MyClass 类 或 示例 
21-1 中 的 Dog 类 。 


总 之 ， 不 例 21-2 中 record_factory 函数 的 最 后 一 行 会 构建 一 个 类 ， 
类 的 名 称 是 cls_name 参数 的 值 ， 唯 一 的 直接 超 类 是 object, A 
slots 、 init 、 iter 和 repr _ 四 个 类 属性 ， 其 中 后 


三 个 是 实例 方法 。 


我 们 本 可 以 把 __slots__ 类 属性 的 名 称 改 成 其 他 值 ， 不 过 要 是 那样 的 

Wo MESH _setattr _ 方法 ， 为 属性 赋值 时 验证 属性 的 名 称 ， 

为 对 于 记录 这 样 的 类 ， 我 们 希望 属性 始终 是 固定 的 那儿 个 ， 而 且 顺 序 相 
同 。 然 而 9.8 “diet, _slots_ 属性 的 主要 特色 是 节省 内 存 ， 能 处 理 
数 百 万 个 实例 ， 不 过 也 有 一 些 缺 点 。 


把 三 个 参数 传 给 type 是 动态 创建 类 的 常用 方式 。 如 果 碍 看 
collections.namedtuple 函数 的 源码 

Chttps://hg.python.org/cpython/file/3.4/Lib/collections/_ init _.py#1236) , 
你 会 发 现 另 一 种 方式 : 先 声 明 一 个 class template 变量 ， 其 值 是 字 
符 串 形式 的 源码 模板 : 然后 在 namedtuple 函数 中 调用 
_class_template.format(...) 方法 ， 填 充 模板 里 的 空白 ; 最后， 使 
用 内 置 的 exec 函数 计算 得 到 的 源码 字符 串 。 


Be 在 Python 中 做 元 编程 时 ， 最 好 不 用 exec 和 eval 函数 。 如 
果 接 收 的 字符 串 (或 片段 ) 来 自 不 可 信 的 源 ， 那 么 这 两 个 函数 会 种 
来 严重 的 安全 风险 。Python 提供 了 充足 的 内 省 工具 ， 大 多 数 时 候 都 


不 需要 使 用 exec 和 eval 函数 。 然 而 ，Python 核心 开发 者 实现 
namedtuple 函数 时 选择 了 使 用 exec 函数 ， 这 样 做 是 为 了 让 生成 

的 类 代码 能 通过 ._ source 属性 
Chttps://docs.python.org/3/library/collections.html#collections.somenamedt 

获取 。 


record_factory 函数 创建 的 类 ， 其 实例 有 个 局 限 一 一 不 能 序列 化 ， 即 
不 能 使 用 pickle 模块 里 的 dump/load 函数 处 理 。 这 个 示例 是 为 了 说 
明 如 何 使 用 type 类 满足 简单 的 需求 ， 因 此 不 会 解决 这 个 问题 。 如 果 想 
了 解 完整 的 方案 ， 请 分 析 collections.nameduple 函数 的 源码 

Chttps://hg.python.org/cpython/file/3.4/Lib/collections/__ init _.py#1236) , 
搜索 “pickling”* 这 个 词 。 


21.2 定制 描述 符 的 类 装饰 器 


20.1.3 节 中 的 LineItem 示例 还 有 个 问题 没有 解决 : 储存 属性 的 名 称 不 
具有 描述 性 ， 即 属性 (如 weight) 的 值 存储 在 名 为 _Quantity#0 的 实 
例 属 性 中 ， 这 样 的 名 称 有 点 不 便于 调试 。 我 们 可 以 使 用 下 述 术 代 码 从 示例 
20-7 定义 的 描述 符 中 获取 储存 属性 的 名 称 


>>> LineItem.weight.storage_name 
"_Quantity#0' 


Fle, WOR i FE Je EARRA RHEE SR EARE WB its: 


>>> LineItem.weight.storage_name 
" Quantity#weight' 


20.1.2 节 说 过 ， 我 们 不 能 使 用 描述 性 的 储存 属性 名 称 ， 因 为 实例 化 描述 
符 时 无 法 得 知 托管 属性 〈 即 绑 定 到 描述 符 上 的 类 属 性 ， 例如 前 述 示 例 中 
的 weight) 的 名 称 。 可 是 ， 一 旦 组 建 好 整个 类 ， 而 且 把 描述 符 绑 定 到 
类 属性 上 之 后 ， 我 们 就 可 以 审查 类 ， 并 为 描述 符 设 置 合 理 的 储存 属性 名 
称 。LineItem 类 的 new_ _ 方法 可 以 做 到 这 一 点 ， 因 此 ， 在 
_init _ 方法 中 使 用 描述 符 时 ， 储 存 属性 已 经 设置 了 正确 的 名 称 。 为 
了 解决 这 个 问题 而 使 用 new _ 方法 纯 属 白费 力气 : 每 次 新 建 
LineItem 实例 时 都 会 运行 ”new_ ”方法 中 的 逻辑 ， 可 是 ， 一 旦 
LineItem 类 构建 好 了 ， MBIT SPEE RIEL MIIE RAEE T o 因 
此 ， 我 们 要 在 创建 类 时 设置 储存 属性 的 名 称 。 使 用 类 装饰 器 或 元 类 可 以 
做 到 这 一 点 。 我 们 首先 使 用 较 简 单 的 方式 。 


类 装饰 絮 与 阔 数 装饰 右 非 常 类 似 ， 是 参数 为 类 对 象 的 函数 ， 人 返回 原来 的 
类 或 修改 后 的 类 。 


在 示例 21-3 中 ， 解 释 器 会 计算 LineItem 类 ， 把 返回 的 类 对 象 传 给 

model.entity 函数 。Python 会 把 LineItem 这 个 全 局 名 称 绑 定 给 

model, entity P EA BUR ERIN ER 在 这 个 示例 中 ， model. entity 函数 
返回 原先 的 LineItem 类 ， 但 是 会 修改 各 个 描述 符 实 例 的 


S 属性 。 


示例 21-3 bulkfood v6.py: 使 用 Quantity 和 NonBlank 描述 符 的 
LineItem 类 


import model_v6 as model 


@model.entity © 

class LineItem: 
description = model.NonBlank() 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


subtotal(self): 
return self.weight * self.price 


@ 这 个 类 唯一 的 变化 是 添加 了 装饰 器 。 


示例 21-4 是 那个 装饰 器 的 实现 。 这 里 只 列 出 了 model_v6.py 脚本 底部 添 
加 的 新 代码 ， 其 余 的 代码 与 model v5.py 脚本 〈 见 示例 20-6) 一 样 。 


示例 21-4 model v6.py: 一 个 类 装饰 器 


def entity(cls): © 
for key, attr in cls. dict .items(): @ 
if isinstance(attr, Validated): © 


type_name = type(attr). name _ 
attr.storage name = ' {}#{}'.format(type_name, key) @ 
return cls © 


@ 装饰 器 的 参数 是 一 个 类 。 

O 迭代 存储 类 属性 的 字典 。 

@ 如 果 属 性 是 Validated 描述 符 的 实例 .…… 

@@ .…. 使 用 描述 符 类 的 名 称 和 托管 属性 的 名 称 命名 storage_name (fii 


ui] NonBlank#description) 。 
加 返回 修改 后 的 类 。 


bulkfood v6.py 脚本 中 的 doctest 证 明 ， 改 动 是 成 功 的 。 例 如 ， 示 例 21-5 
展示 了 一 个 LineItem 实例 中 的 储存 属性 名 称 。 


示例 21-5 bulkfood v6.py: 描述 符 中 新 storage_name 属性 的 
doctest 


>>> raisins = LineItem('Golden raisins', 10, 6.95) 

>>> dir(raisins)[:3] 

['_NonBlank#description', ' Quantity#price', ' Quantity#weight' ] 
>>> LineItem.description.storage name 


"_NonBlank#description' 

>>> raisins.description 

"Golden raisins' 

>>> getattr(raisins, ' NonBlank#description' ) 
"Golden raisins’ 


可 以 看 出 ， 这 并 不 复杂 。 类 装饰 右 能 以 较 简 单 的 方式 做 到 以 前 需要 使 用 
元 类 去 做 的 事情 一 一 创建 类 时 定制 类 。 


类 装饰 器 有 个 重大 缺点 : 只 对 直接 依附 的 类 有 效 。 这 意味 着 ， 补 装饰 的 
类 的 子 类 可 能 继承 也 可 能 不 继承 装饰 右 所 做 的 改动 ， 有 具体 情况 视 改 动 的 
方式 而 定 。 接 下 来 的 几 贡 会 探讨 这 个 问题 ， 并 给 出 解决 方案 。 


21.3 导入 时 和 运行 时 比较 


为 了 正确 地 做 元 编程 ， 你 必须 知道 Python 解释 器 什么 时 候 计算 各 个 代码 
ER, Python 程序 员 会 区 分 “导入 时 ”和 “运行 时 >”， 不 过 这 两 个 术语 没有 严 
格 的 定义 ， 而 且 二 者 之 间 存 在 着 灰色 地 带 。 在 导入 时 ， 解 释 器 会 从 上 到 
下 一 次 性 解析 完 .py 模块 的 源码 ， 然 后 生成 用 于 执行 的 字 节 码 。 如 果 人 名 
法 有 错误 ， 就 在 此 时 报告 。 如 果 本 地 的 ”pycache _ 文件 夹 中 有 最 新 
E ee E R ne 


编译 肯定 是 导入 时 的 活动 ， 不 过 那个 时 期 还 会 做 些 其 他 事 ， 因 为 Python 
中 的 语句 几乎 都 是 可 执行 的 ， 也 就 是 说 语句 可 能 会 运行 用 户 代码 ， 修 改 
用 户 程序 的 状态 。 尤 其 是 import 语句 ， 它 不 只 是 声明 了， 在 进程 中 首 
次 村 入 模块 时 ， 还 会 运行 所 导入 模块 中 的 全 部 顶层 代码 一 一 以 后 导入 相 
同 的 模块 则 使 用 缓存 ， 只 做 名 称 绑 定 。 那 些 顶 层 代 码 可 以 做 任何 事 ， 包 
括 通常 在 “运行 时 ”做 的 事 ， 例 如 连接 数据 库 。“ 因此 , “导入 时 ”与 “运行 
时 ”之 间 的 界线 是 模糊 的 : import 语句 可 以 触发 任何 “运行 时 ”行为 。 


3Java 中 的 import 语句 则 只 是 声明 ， 用 于 告知 编译 器 需要 特定 的 包 。 


4 我 不 是 说 导入 模块 时 应 该 连接 数据 库 ， 只 是 指出 来 可 以 做 到 。 


在 前 一 段 中 我 写 道 ， 导 入 时 会 “运行 全 部 顶层 代码 ”， 但 是 “顶层 代码 ”会 
经 过 一 些 加 工 。 导 入 模块 时 ， 解 释 器 会 执行 顶层 的 def 语句 ， 可 是 这 人 么 
做 有 什么 作用 呢 ? 解 释 器 会 编译 函数 的 定义 体 ( 首 次 导入 模块 时 ) ， 把 
函数 对 象 绑 定 到 对 应 的 全 局 名 称 上 ， 但 是 显然 解释 器 不 会 执行 函数 的 定 
义 体 。 通 常 这 意味 着 解释 器 在 导入 时 定义 顶层 函数 ， 但 是 仅 当 在 运行 时 
调用 函数 时 才 会 执行 函数 的 定义 体 。 

对 类 来 说 ,情况 就 不 同 了 : 在 导入 时 ， 人 解释 器 会 执行 每 个 类 的 定义 体 ， 
甚至 会 执行 葡 套 类 的 定义 体 。 执 行 类 定义 体 的 结果 是 ， 定 义 了 类 的 属性 
和 方法 ， 并 构建 了 类 对 象 。 从 这 个 意义 上 理解 ， 类 的 定义 体 属于 “顶层 
代码 ”， 因 为 它 在 导入 时 运行 。 


上 述说 明 模 糊 又 抽象 ， 下 面 通过 练习 理解 各 个 时 期 所 做 的 事情 。 


理解 计算 时 间 的 练习 
假设 在 evaltime.py 脚本 中 导入 了 evalsupportpy 模块 。 这 两 个 模块 调用 


J JWR print 函数 ， 打 印 <[N]> 格式 的 标记 ， 其 中 N 是 数字 。 下 述 两 
个 练习 的 目标 是 ， 确 定 各 个 调用 在 何 时 执行 。 


` 据 我 的 学 生 说 ， 这 两 个 练习 有 助 于 更 好 地 理解 Python 计算 源 
o 在 查看 场景 1 的 解答 之 前 ， 请 一 定 要 拿 出 纸 和 笔 ， 花 点 
时 间作 答 。 


示例 21-6 和 示例 21-7 中 。 先 别 运行 代码 ， 拿 出 纸 
， 按 顺序 写 出 下 述 两 个 场景 输出 的 标记 。 


场景 1 

在 Python 控制 台中 以 交互 的 方式 导入 evaltime.py 模块 : 
场景 2 

在 命令 行 中 运行 evaltime.py 模块 : 


示例 21-6 evaltime.py: 按 顺 序 写 出 输出 的 序号 标记 <[N]> 


from evalsupport import deco alpha 


print('<[1]> evaltime module start') 
class ClassOne(): 
print('<[2]> ClassOne body' ) 


def _ init__(self): 
print('<[3]> ClassOne. init ') 


def _del (self): 


print('<[4]> ClassOne. del ') 


def method x(self): 
print('<[5]> ClassOne.method x') 


class ClassTwo(object): 
print('<[6]> ClassTwo body') 


@deco_alpha 
class ClassThree(): 
print('<[7]> ClassThree body ) 


def method_y(self): 
print('<[8]> ClassThree.method_y' ) 


class ClassFour(ClassThree): 
print('<[9]> ClassFour body ) 


def method_y(self): 
print('<[10]> ClassFour.method_y') 


if _name == ' main_': 
print('<[11]> ClassOne tests', 30 * '.') 
one = ClassOne() 
one.method_x() 
print('<[12]> ClassThree tests', 30 * '.') 
three = ClassThree() 
three.method_y() 
print('<[13]> ClassFour tests', 30 * '.') 
four = ClassFour() 
four.method_y() 


print('<[14]> evaltime module end') 


示例 21-7 evalsupport.py: evaltime.py 导入 的 模块 


print('<[100]> evalsupport module start ' ) 


def deco_alpha(cls): 
print('<[200]> deco_alpha') 


def inner_1(self): 
print('<[300]> deco_alpha:inner_1') 


cls.method_y = inner_1 
return cls 


class MetaAleph(type): 
print('<[40@]> MetaAleph body ) 


def _init (cls, name, bases, dic): 
print('<[50@]> MetaAleph. init__') 


def inner_2(self): 
print('<[600]> MetaAleph. init __:inner_2') 


cls.method_z = inner_2 


print('<[700]> evalsupport module end ' ) 


01. 场景 1 的 解答 


在 Python 控制 台中 导入 evaltime.py 模块 后 得 到 的 输出 如 示例 21-8 
BAAR o 


示例 21-8 场景 1: 在 Python 控制 台中 导入 evaltime 模块 


>>> import evaltime 

<[10@]> evalsupport module start © 
<[400]> MetaAleph body @ 

<[70@]> evalsupport module end 
<[1]> evaltime module start 

<[2]> ClassOne body © 


<[6]> ClassTwo body @ 

<[7]> ClassThree body 

<[20@]> deco_alpha © 

<[9]> ClassFour body 

<[14]> evaltime module end © 


Q evalsupport 模块 中 的 所 有 顶层 代码 在 导入 模块 时 运行 ， 解 释 
器 会 编译 deco_alpha 函数 ， 但 是 不 会 执行 定义 体 。 


© MetaAleph 类 的 定义 体 运 行 了 。 


02. 


O 每 个 类 的 定义 体 都 执行 了 .……. 
Q ..... AKER. 
a ClassThree WEE, 2A JIS 47 AR Vii ait PR 


@ 在 这 个 场景 中 ，evaltime 模块 是 导入 的 ， 因 此 不 会 运行 if 


_name == ' main “': 块 。 
对 于 场景 1， 要 注意 以 下 几 点 。 
(1) 这 个 场景 由 简单 的 import evaltime 语句 触发 。 


(2) 解释 如 会 执行 所 导入 模块 及 其 依赖 (evalsupport) 中 的 每 个 
类 定义 体 。 
(3) 解释 器 匈 计算 基 的 定义 体 ， 然后 调用 依附 在 类 上 的 装饰 器 函 


数 ， 这 是 合理 的 行为 ， 因 为 必须 先 构 建 类 对 象 ， 装 饰 器 才 有 类 对 象 
可 处 理 。 


(4) 在 这 个 场景 中 ， 只 运行 了 一 个 用 户 定义 的 函数 或 方法 
—deco_ alpha 装饰 器 。 


下 面 来 看 场景 2 
场景 2 的 解答 
运行 python3 evaltime.py 命令 后 得 到 的 输出 如 示例 21-9 所 


示例 21-9 场景 2: 在 shell 中 运行 evaltime.py 


$ python3 evaltime.py 

<[166]> evalsupport module start 
<[400]> MetaAleph body 

<[700]> evalsupport module end 
<[1]> evaltime module start 
<[2]> ClassOne body 

<[6]> ClassTwo body 


<[7]> ClassThree body 

<[20@]> deco_alpha 

<[9]> ClassFour body @ 

<[IT1]>-ClassOne tests: soe serren e n eviews dee os 
<[3]> ClassOne._ init _ @ 

<[5]> ClassOne.method_x 

< [12]> ClassThree tests rer ce cerca a Gt wce ee Sie one 
<[30@]> deco_alpha:inner_1 © 

4[13]> CLASSFOUR tests ack. cece sue e reaa n Ea aie ate 
<[10]> ClassFour.method_y 

<[14]> evaltime module end 

<[4]> ClassOne. del © 


O 目前 为 止 ， 输 出 与 示例 21-8 相同 。 
O 类 的 标准 行为 。 


@ deco_alpha 装饰 器 修改 了 ClassThree.method_y 方法 ， 因 此 
调用 three.method_y() 时 会 运行 inner_1 函数 的 定义 体 。 


O 只 有 程序 结束 时 ， 绑 定 在 全 局 变量 one 上 的 ClassOne 实例 才 
会 被 垃圾 回收 程序 回收 。 


场景 2 主要 想 说 明 的 是 ， 类 装饰 器 可 能 对 子 类 没有 影响 。 在 示例 
21-6 中 ， 我 们 把 ClassFour 定义 为 ClassThree 的 子 

X. ClassThree 类 上 依附 的 @deco_alpha 装饰 器 把 method_y 77 
法 替换 掉 了 ， 但 是 这 对 ClassFour 类 根本 没有 影响 。 当 然 ， 如 果 
ClassFour.method_y 方法 使 用 super(...) 调用 
ClassThree.method_y 方法 ， 我 们 便 会 看 到 装饰 器 起 作用 ， 执 行 
inner_1 函数 。 


与 此 不 同 的 是 ， 如 果 想 定制 整个 类 层次 结构 ， 而 不 是 一 次 只 定制 一 
个 类 ， 使 用 下 一 市 介绍 的 元 类 更 高 效 。 


21.4 ”元 类 基础 知识 


元 类 是 制造 类 的 工厂 ， 不 过 不 是 函数 《如 示例 21-2 中 的 
record factory) ， 而 是 类 。 图 21-1 使 用 机 器 和 小 怪兽 图 示 法 描述 元 
类 ， 可 以 看 出 ， 元 类 是 生产 机 器 的 机 器 。 


Niis & 
Gizmos 
Notation 


图 21-1: 元 类 是 用 于 构建 类 的 类 


根据 Python 对 象 模型 ， 类 是 对 象 ， 因 此 类 肯定 是 男 外 某 个 类 的 实例 。 默 
认 情 况 下 ，Python 中 的 类 是 type 类 的 实例 。 也 就 是 说 ，type 是 大 多 数 
内 置 的 类 和 用 户 定 义 的 类 的 元 类 : 


>>> 'spam'. class _ 
<class ‘str'> 

>>> str. class _ 
<class 'type'> 


>>> from bulkfood_v6 import LineItem 
>>> LineItem. class _ 

<class 'type'> 

>>> type.__class _ 

<class 'type'> 


为 了 避免 无 限 回 调 ，type 是 其 自身 的 实例 ， 如 最 后 一 行 所 示 。 


注意 ， 我 没有 说 str 或 LineItem 继承 自 type。 我 的 意思 是 ，str 和 
LineItem 是 type 的 实例 。 这 两 个 类 是 object 的 子 类 。 网 21-2 可 能 
有 助 于 你 理 清 这 个 奇怪 的 现象 。 


«metaclass» 
type 


«metaclass» 
type 


/ \ 
Caer N 
7 «instance of» x 


图 21-2: 两 个 示意 图 都 是 正确 的 。 左 边 的 示意 图 强调 str. type 和 
LineItem 是 object 的 子 类 。 右 边 的 示意 图 则 清楚 地 表明 
str、object 和 LineItem 是 type 的 实例 ， 因 为 它们 都 是 类 


` object 类 和 type 类 之 间 的 关系 很 独特 : object 是 type 的 
实例 ， 而 type 是 object 的 子 类 。 这 种 关系 很 “神奇 "， 无 法 使 用 
Python 代码 表述 ， 因 为 定义 其 中 一 个 之 前 男 一 个 必须 存在 。type 
是 自身 的 实例 这 一 点 也 很 神奇 。 


除了 type， 标 准 库 中 还 有 一 些 别 的 元 类 ， 例 如 ABCMeta 和 Enum. 40 
下 述 代码 片段 所 示 ，collections.Iterable 所 属 的 类 是 
abc.ABCMeta. Iterable 是 抽象 类 ， 而 ABCMeta 不 是 
样 ，Iterable 是 ABCMeta 的 实例 : 


不 管 怎 


>>> import collections 

>>> collections.Iterable. class _ 
<class 'abc.ABCMeta' > 

>>> import abc 


>>> abc.ABCMeta. class _ 

<class 'type'> 

>>> abc.ABCMeta. mro _ 

(<class 'abc.ABCMeta'>, <class 'type'>, <class ‘object'>) 


H EEX, ABCMeta 最 终 所 属 的 类 也 是 type。 上 所 有 类 都 直接 或 间接 地 
是 type 的 实例 ， 不 过 只 有 元 类 同时 也 是 type 的 子 类 。 若 想 理解 元 
类 ， 一 定 要 知道 这 种 关系 : 元 类 (如 ABCMeta) 从 type 类 继承 了 构建 
类 的 能 力 。 图 21-3 对 这 种 至 关 重 要 的 关系 做 了 图 解 。 


«metaclass» 
type 


A 7 
«instance of» ,7 


«Subclass of» 


«Subclass of» 


图 21-3: Iterable object 的 子 类 ， 是 ABCMeta 的 实例 。object 
和 ABCMeta 都 是 type 的 实例 ， 但 是 这 里 的 重要 关系 是 ，ABCMeta 还 
是 type 的 子 类 ， 因 为 ABCMeta 是 元 类 。 示 意图 中 只 有 Iterable 是 
抽象 类 


我 们 要 抓 住 的 重点 是 ， 所 有 类 都 是 type 的 实例 ， 但 是 元 类 还 是 type 
的 子 类 ， 因 此 可 以 作为 制造 类 的 工厂 。 具 体 来 说 ， 元 类 可 以 通过 实现 
init 方法 定制 实例 。 元 类 的 init ”方法 可 以 做 到 类 装饰 器 能 
做 的 任何 事情 ， 但 是 作用 更 大 ， 如 接 下 来 的 练习 所 示 。 


理解 元 类 计算 时 间 的 练习 


我 们 对 21.3 节 的 练习 做 些 改动 ，evalsupportpy 模块 与 示例 21-7 一 样 ， 
不 过 现在 主 脚本 变 成 evaltime meta.py 了 ， 如 示例 21-10 所 示 。 


示例 21-10 evaltime meta.py: ClassFive 是 MetaAleph 元 类 的 
实例 


from evalsupport import deco_alpha 
from evalsupport import MetaAleph 


print('<[1]> evaltime_meta module start') 


@deco_alpha 
class ClassThree(): 
print('<[2]> ClassThree body ) 


def method_y(self): 
print('<[3]> ClassThree.method_y' ) 


class ClassFour(ClassThree): 
print('<[4]> ClassFour body ) 


def method_y(self): 
print('<[5]> ClassFour.method_y' ) 


class ClassFive(metaclass=MetaAleph) : 
print('<[6]> ClassFive body') 


def _ init__(self): 
print('<[7]> ClassFive. init ') 


def method_z(self): 
print('<[8]> ClassFive.method_z') 


class ClassSix(ClassFive): 
print('<[9]> ClassSix body') 


def method _z(self): 
print('<[10]> ClassSix.method_z') 


if _name == ' main_': 
print('<[11]> ClassThree tests', 30 * '.') 


three = ClassThree() 

three.method_y() 

print('<[12]> ClassFour tests', 30 * '.') 
four = ClassFour() 

four.method_y() 

print('<[13]> ClassFive tests', 30 * '.') 
five = ClassFive() 

five.method_z() 

print('<[14]> ClassSix tests', 30 * '.') 
six = ClassSix() 

six.method_z() 


print('<[15]> evaltime_meta module end') 


同样 ， 请 拿 出 纸 和 笔 ， 按 顺序 写 出 下 述 两 个 场景 中 输出 的 序号 标记 


<[N]>。 


场景 3 
在 Python 控制 台中 以 交互 的 方式 导入 evaltime_meta.py 模块 。 
场景 4 


在 命令 行 中 运行 evaltime_meta.py 模块 。 
解答 和 分 析 如 下 。 
01. 场景 3 的 解答 


在 Python 控制 台中 导入 evaltime meta.py 模块 后 得 到 的 输出 如 示例 
21-11 所 示 。 


示例 21-11 场景 3: 在 Python 控制 台中 导入 evaltime_meta 
模块 


>>> import evaltime_meta 

<[10@]> evalsupport module start 
<[400]> MetaAleph body 

<[70@]> evalsupport module end 
<[1]> evaltime_meta module start 
<[2]> ClassThree body 


<[20@]> deco_alpha 

<[4]> ClassFour body 

<[6]> ClassFive body 

<[5@0]> MetaAleph. init © 
<[9]> ClassSix body 

<[5@0]> MetaAleph. init @ 
<[15]> evaltime_meta module end 


O 与 场景 1 的 关键 区 别 是 ， 创 建 ClassFive 时 调用 了 
MetaAleph. init ”方法 。 


@ 创建 ClassFive 的 子 类 Classsix 时 也 调用 了 
MetaAleph. init 方法。 


Python 解释 器 计算 ClassFive 类 的 定义 体 时 没有 调用 type 构建 具 
体 的 类 定义 体 ， 而 是 调用 MetaAleph 类 。 看 一 下 示例 21-12 中 定 
义 的 MetaAleph 类 ， 你 会 发 现 init __ 方法 有 四 个 参数 。 
self 

这 是 要 初始 化 的 类 对 象 〈 例 如 ClassFive) 。 
name, bases. dic 

与 构建 类 时 传 给 type 的 参数 一 样 。 


示例 21-12 evalsupport.py: 定义 MetaAleph 元 类 ， 摘 自 示例 
21-7 


class MetaAleph(type): 
print('<[40@]> MetaAleph body ) 


def _init (cls, name, bases, dic): 
print('<[50@]> MetaAleph. init _') 


def inner_2(self): 
print('<[600]> MetaAleph. init __:inner_2') 


cls.method_z = inner_2 


02. 


和 ; 编写 元 类 时 ， 通常 会 把 self 参数 改 成 cls。 例 如 ， 在 上 
类 的 init 方法 中 ， 把 第 一 个 参数 命名 为 cls 能 清楚 
foe nee. 


init ”方法 的 定义 体 中 定义 了 inner_2 函数 ， 然 后 将 其 绑 定 给 
cls.method_z. MetaAleph. init 方法 签名 中 的 cls 指 代 要 
创建 的 类 (例如 ClassFive) 。 而 inner_2 函数 签名 中 的 self 
ee (例如 ClassFive 类 的 实 

列 ) 。 


场景 4 的 解答 


在 命令 行 中 运行 python3 evaltime_meta.py 命令 后 得 到 的 输出 
如 示例 21-13 所 示 。 


示例 21-13 场景 4: 在 shell 中 运行 evaltime meta.py 


$ python3 evaltime.py 

<[166]> evalsupport module start 
<[400]> MetaAleph body 

<[70@]> evalsupport module end 
<[1]> evaltime_meta module start 
<[2]> ClassThree body 

<[20@]> deco_alpha 

<[4]> ClassFour body 

<[6]> ClassFive body 

<[500]> MetaAleph. init _ 

<[9]> ClassSix body 

<[500]> MetaAleph. init _ 
<[11]> ClassThree tests 

<[366]> deco_alpha:inner_1 @ 
<[12]> ClassFour tests 

<[5]> ClassFour.method y @ 
<[13]> ClassFive tests 

<[7]> ClassFive. init _ 

<[666]> MetaAleph. init :inner 2 © 
<[14]> ClassSix tests 

<[7]> ClassFive. init _ 

<[600]> MetaAleph. init :inner 2 @ 
<[15]> evaltime meta module end 


@ 装饰 器 依附 到 ClassThree 类 上 之 后 ，method_y 方法 被 蔡 换 成 
inner_1 方法 .…. 


© 虽然 ClassFour 是 ClassThree 的 子 类 ， 但 是 没有 依附 装饰 器 
的 ClassFour 类 却 不 受 影 响 。 


© MetaAleph 类 的 init _ 方法 把 ClassFive.method z 方法 
替换 成 inner_2 函数 。 


@ ClassFive 的 子 类 ClassSix 也 是 一 样 ，method_z 方法 被 替换 
成 inner_2 函数 。 


JER, ClassSix 类 没有 直接 引用 MetaAleph 类 ， 但 是 却 受 到 了 影 
啊 ， 因 为 它 是 ClassFive 的 子 类 ， 进 而 也 是 MetaAleph 类 的 实 
例 ， 所 以 由 MetaAleph. init _ 方法 初始 化 。 


A 如 果 想 进一步 定制 关 ， 可 以 在 元 类 中 实现 new 77 
法 。 不 过 ， 通 常情 况 下 实现 _init_ 方法 就 够 了 。 


现在 ， 我 们 可 以 实践 这 些 理论 了 。 我 们 将 创建 一 个 元 类 ， 让 描述 符 
以 最 佳 的 方式 自动 创建 储存 属性 的 名 称 。 


21.5 和 定制 描述 符 的 元 类 


回 到 LineItem 系列 示例 。 如 果 用 户 完全 不 用 知道 描述 符 或 元 类 ， 直 接 
继承 库 提 供 的 类 就 能 满足 需求 ， 那 该 多 好 。 如 示例 21-14 所 示 。 


示例 21-14 bulkfood_v7.py: 有 元 类 的 文 持 ， 继 承 model. Entity 
类 即 可 


import model_v7 as model 


class LineItem(model.Entity): @ 
description = model.NonBlank() 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


subtotal(self): 
return self.weight * self.price 


O LineItem < model. Entity MFR. 


示例 21-14 理解 起 来 相当 容易 ， 毕 竟 根 本 没有 奇怪 的 句法 。 可 是 ， 
model v7.py 模块 必须 定义 一 个 元 类 ， 而 且 model.Entity 类 是 那个 元 
类 的 实例 。model v7.py 模块 中 实现 的 Entity 类 如 示例 21-15 所 示 。 


示例 21-15 model v7.py: EntityMeta 元 类 以 及 它 的 一 个 实例 
Entity 


class EntityMeta(type): 


""" 元 类 ， 用 于 创建 带 有 验证 字段 的 业务 实体 """ 


def _init (cls, name, bases, attr_dict): 
super(). init (name, bases, attr_dict) © 
for key, attr in attr_dict.items(): @ 
if isinstance(attr, Validated): 


type_name = type(attr).__name__ 
attr.storage name = '_{}#{}'.format(type_name, key) 


class Entity(metaclass= EntityMeta) : © 
"" 带 有 验证 字段 的 业务 实体 "" 


@ 在 超 类 (在 这 里 是 type) 上 调用 init 方法 。 
© 与 示例 21-4 中 @entity 装饰 器 的 逻辑 一 样 。 


O 这 个 类 的 存在 只 是 为 了 用 起 来 便利 ， 这 个 模块 的 用 户 直 接 继 承 
Entity 类 即 可 ， 无 需 关 心 EntityMeta 元 类 ， 甚 至 不 用 知道 它 的 存 
在 。 


示例 21-14 中 的 代码 能 通过 示例 21-3 中 的 测试 。 FABER model_v7.py 
比 model_v6.py ME 但 是 用 户 级 别 的 代码 更 简单 : 只 需 继承 


model_v7.Entity 类 ，Validated 字段 就 能 自动 获得 储存 属性 的 名 
称 。 


图 21-4 使 用 简单 的 图 示 说 明了 我 们 刚刚 实现 的 逻辑 。 里 然 有 很 多 复杂 
的 逻辑 ， 但 都 隐藏 在 model_v7 模块 中 。 从 用 户 的 角度 来 看 ， 示 例 21- 
14 中 的 LineItem 只 是 Entity 的 子 类 。 这 就 是 抽象 的 作用 。 


model v7 


N\il\s & 
Gizmos 


LANGUAGE Notation 


UNIFIED «> 
MODELING í 


| Lineltem — p~ 
description 
_Quantity#weight 
_Quantity#price 
__init__ 


图 21-4: fe Las PES Alia (MGN) 注解 的 UML 类 

Al. EntityMeta 元 机 器 用 于 生产 LineItem 机 器 。 描 述 符 〈 如 
weight 和 price) 由 EntityMeta. init _ 方法 配置 。 注 意 
model_v7 模块 的 边界 

除了 把 类 链接 到 元 类 上 的 句法 之 外 S， 目 前 编写 元 类 使 用 的 句法 在 
Python 2.2〈 这 个 版 本 对 Python 类 型 做 了 重大 改造 ) 之 后 都 能 使 用 。 下 
一 节 介 绍 一 个 只 能 在 Python 3 中 使 用 的 功能 。 


511.7.1 节 说 过 ，Python 2.7 使 用 的 是 metaclass_ ”类 属性 ， 类 的 声明 体 不 支持 metaclass= 
关键 字 参 数 。 


21.6 ”元 类 的 特殊 方法 ”prepare __ 


在 茶 些 应 用 中 ， a en Mae 例如 ， 对 读 写 CSV 
文件 的 库 来 说 ， 用 户 定 义 的 类 可 能 想 把 类 中 按 顺 序 声明 的 字段 与 CSV 
文件 中 各 列 的 顺序 对 应 起 来 。 


如 前 所 述 ，type 构造 方法 及 元 类 的 _ new 和 init 方法 都 会 收 
到 要 计算 的 类 的 定义 体 ， 形 式 是 名 称 到 属性 的 映像 。 然 而 在 默认 情况 
下 ， 那 个 映射 是 字典 ， 也 就 是 说 ， 元 类 或 类 装饰 器 获得 映 尉 时 ， 属 性 在 
类 定义 体 中 的 顺序 已 经 丢失 了 。 


这 个 问题 的 解决 办 法 是 ， 使 用 Python 3 引入 的 特殊 方法 “prepare _ 
这 个 特殊 方法 只 在 元 类 中 有 用 ， 而 且 必 须 声明 为 类 方法 ( 即 ， 要 使 用 
@classmethod 装饰 器 定义 ) 。 解 释 器 调用 元 类 的 new _ 方法 之 前 会 
先 调 用 prepare _ 方 法， 使 用 类 定义 体 中 的 属性 创建 映 

It. _ prepare 方法 的 第 一 个 参数 是 元 类 随后 两 个 参数 分 别 是 
构建 的 类 的 名 称 和 基 类 组 成 的 元 组 ， 返回 值 必 须 是 映射 。 元 类 人 
If, prepare _ 方法 返回 的 映射 会 传 给 ”new _ 方法 的 最 后 一 个 参 
数 ， 然 后 再 传 给 init Wik. 


论 听 起 来 很 复杂 ， 但 是 我 见 过 的 “prepare _ 方法 都 十 分 简单 。 请 
者 示例 21-16。 


示例 21-16 model v8.py: 这 一 版 EntityMeta 元 类 用 到 了 
_ prepare 方法， 而 且 为 Entity 类 定义 了 field_names 类 方 
法 


class JE MS Tal type 


"元 类 ， 用 于 创建 带 有 验证 字段 的 业务 实体 "" 


@classmethod 
def _prepare (cls, name, bases): 
return collections.OrderedDict() @ 


def _init (cls, name, bases, attr_dict): 
super(). init (name, bases, attr_dict) 
cls. field names = [] 


for key, attr in attr_dict.items(): © 
if isinstance(attr, Validated): 
type_name = type(attr). name _ 
attr.storage name = '_{}#{}'.format(type_name, key) 
cls._field_names.append(key) 


class Entity(metaclass=EntityMeta) : 
""" 带 有 验证 字段 的 业务 实体 """ 


@classmethod 
def field names(cls): © 
for name in cls. field names: 
yield name 


O 返回 一 个 空 的 OrderedDict 实例 ， 类 属性 将 存储 在 里 面 。 


O 在 要 构建 的 类 中 创建 一 个 _field_names 属性 。 


O 这 一 行 与 前 一 版 相 比 没有 变化 ， 不 过 这 里 的 attr_dict 是 那个 
OrderedDict 对 象 ， 由 解释 器 在 调用 init _ 方法 之 前 调用 

_ prepare _ 方法 时 获得 。 因 此 ， 这 个 for 循环 会 按照 添加 属性 的 顺 
序 迭 代 属 性 。 


O 把 找到 的 各 个 Validated 字段 添加 到 _field_names 属性 中 。 


oes 类 方法 的 作用 简单 : 按照 添加 字段 的 顺序 产 出 字段 的 
称 。 


像 示 例 21-16 那样 添加 一 些 简 单 的 代码 之 后 ， 我 们 可 以 使 用 
field names 类 方法 迭代 任何 Entity 子 类 的 Validated 字段 。 示 例 
21-17 演示 了 这 个 新 功能 。 


示例 21-17 bulkfood v8.py: 展示 field_names 用 法 的 doctest 
一 一 无 需 修 改 LineItem 类 ，field_names 方法 继承 自 
model.Entity 类 


>>> for name in LineItem.field_names(): 
print (name) 


description 
weight 
price 


对 元 类 的 介绍 到 此 结束 。 在 现实 世界 中 ， 框 架 和 库 会 使 用 元 类 协助 程序 
员 执行 很 多 任务 ， 例如 : 


。 验证 属性 

一 次 把 装饰 器 依附 到 多 个 方法 上 

序列 化 对 象 或 转换 数据 

MRAM 

基于 对 象 的 持久 存储 

动态 转换 使 用 其 他 语言 编写 的 类 结构 

下 一 节 将 概述 Python 数据 模型 为 所 有 类 定义 的 方法 。 


21.7 类 作为 对 象 


Python 数据 模型 为 每 个 类 定义 了 很 多 属性 ， 参 见 标 准 库 参考 中 “Built-in 

Types” 一 章 的 “4.13. Special Attributes” 一 节 
Chttps://docs.python.org/3/library/stdtypes.html#special-attributes) 。 其 中 

三 个 属性 在 本 书 中 已 经 见 过 多 次 : _ mro_. _class_ #il 

_ name 。 此 外 ， 还 有 以 下 属性 。 


cls. bases _ 


由 类 的 基 类 组 成 的 元 组 。 


cls. qualname _ 


Python 3.3 新 引入 的 属性 ， 其 值 是 类 或 函数 的 限定 名 称 ， 即 从 模块 
的 全 局 作用 域 到 类 的 点 分 路 径 。 例 如 ， 在 示例 21-6 中 ， 内 部 类 
ClassTwo 的 qualname _ 属性， 其 值 是 字符 串 
'ClassOne.ClassTwo'， 而 name 属性 的 值 是 "ClassTwo' 。 这 个 


属性 的 规范 是 “PEP 3155 一 Qualified name for classes and 
functions” Chttps://www.python.org/dev/peps/pep-3155/) 。 


cls. subclasses () 


这 个 方法 返回 一 个 列表 ， 包 含 类 的 直接 子 类 。 这 个 方法 的 实现 使 用 
弱 引 用 ， 防 止 在 超 类 和 子 类 ( 子 类 在 __bases__ 属性 中 储存 指 癌 超 类 
的 强 引 用 ) 之 间 出 现 循环 引用 。 这 个 方法 返回 的 列表 中 是 内 存 里 现存 的 


FR. 


cls.mro() 
构建 类 时 ， 如 果 需 要 获取 储存 在 类 属性  mro__ 中 的 超 类 元 组 ， 


解释 器 会 调用 这 个 方法 。 元 类 可 以 履 盖 这 个 方法 ， 定 制 要 构建 的 类 解析 
方法 的 顺序 。 


A dir(...) 函数 不 会 列 出 本 市 提 到 的 任何 一 个 属性 。 


我 们 对 类 元 编程 的 学 习 到 此 结束 。 这 是 个 很 大 的 话题 ， 我 只 讲 了 皮毛 。 
因此 ， 本 书 各 半 部 有 “延伸 阅读 ”一 节 。 


21.8 ”本 章 小 结 


类 元 编程 是 指 动态 创建 或 定制 类 。 在 Python 中 ， 类 是 一 等 对 象 ， 因 此 本 
章 首 先 说 明 如 何 通 过 调用 内 置 的 type 元 类 ， 使 用 函数 创建 类 。 


接 下 来 的 一 节 继 续 讨 论 第 20 章 使 用 描述 符 实现 的 LineItem 类 ， 解 决 
一 个 遗留 问题 : 如 何 让 生成 的 储存 属性 名 中 包含 托管 属性 的 名 称 〈 例 
in, #2 _Quantity#1 变 成 Quantity#price) 。 解 决 办 法 是 使 用 类 装 
饰 器 。 说 到 底 ， 类 装饰 器 是 函数 ， 其 参数 是 被 装饰 的 类 ， 用 于 审查 和 修 
改 刚 创 建 的 类 ， 甚 至 替换 成 其 他 类 。 


然后 ， 本 半 讨 论 了 模块 中 不 同 部 分 的 代码 何 时 运行 。 我 们 发 现 ， 所 谓 
的 “导入 时 ”和 “运行 时 ”之 间 有 重 闪 ， 不 过 很 明显 ，import 语句 会 触发 
运行 大 量 代码 。 知 道 代码 何 时 运行 至 关 重 要 ， 可 是 有 些 规则 难以 捉摸， 
因此 我 们 通过 两 个 计算 时 间 练 习 对 此 做 了 说 明 。 


接 下 来 ， 本 章 介 绍 了 元 类 。 我 们 得 知 ， 所 有 类 都 直接 或 间接 地 是 type 
的 实例 ， 因 此 在 Python H, type 是 “ 根 元 类 ”。 然 后 ， 我 们 对 之 前 的 计 
算 时 间 练 习 做 了 修改 ， 以 此 说 明 元 类 可 以 定制 类 的 层次 结构 。 类 装饰 需 
则 不 同 ， 它 只 能 影响 一 个 类 ， 而 且 对 后 代 可 能 没有 影响 。 


随后 ， 我 们 实际 使 用 元 类 ， 解 决 LineItem 类 中 储存 属性 的 命名 问题 。 
最 终 写 出 的 代码 比 类 装饰 器 难民 一 些 ， 不 过 可 以 封装 在 一 个 模块 里 ， 这 
样 用户 只 需 继 承 看 似 普 通 的 一 个 类 (model.Entity)〉 ， 而 不 用 知道 它 
是 元 类 (model.EntityMeta) 的 实例 。 这 种 处 理 方式 让 人 想起 了 
S 和 SQLAIchemy 的 ORM API: 使 用 元 类 实现 ， 用 户 却 根本 无 需 知 
JE o 


我 们 实现 的 第 二 个 元 类 为 model. EntityMeta 类 添加 了 一 个 小 功能 : 
定义 ”prepare _ 方 法， 返回 一 个 OrderedDict 对 象 ， 用 于 储存 名 称 
到 属性 的 映射 。 这 样 做 能 保留 要 构建 的 类 在 定义 体 中 绑 定 属性 的 顺序 ， 
提供 给 元 类 的 ”new 和 init _ 等 方法 使 用 。 在 这 个 示例 中 ， 我 
们 定义 了 类 属性 _field_names， 因 此 用 户 可 以 使 用 
Entity.field_names() 方法 以 Validated 描述 符 出 现在 源码 中 的 顺 
序 获 取 描 述 符 。 


Ba, RIER T Python 为 所 有 类 提供 的 属性 和 方法 。 


元 类 是 充满 挑战 、 让 人 兴奋 的 功能 ， 有 时 会 被 故 作 聪 明 的 程序 员 滥 用 。 
最 后 ， 我 们 回顾 一 下 Alex Martelli 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文 的 最 
后 给 我 们 的 建议 : 


此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 (或 元 类 ) .……. 如 果 你 很 想 
这 样 做 ， 我 打赌 可 能 是 因为 你 想 “ 找 在 "， 刚 拿 到 新 工具 的 人 都 有 大 
干 一 场 的 冲动 。 如 果 你 能 避 开 这 些 深奥 的 概念 ， 你 (以 及 未 来 的 代 
码 维护 者 的 生活 将 更 愉快 ， 因 为 代码 简洁 明了 。 


Alex Martelli 


说 出 上 述 至 理 名 言 的 人 不 仅 是 Python TRENI, RAL ETE BOR AY BR EE 
工程 师 ， 负 贡 世 界 上 几 个 最 重要 的 Python 应 用 。 


21.9 延伸 阅读 


为 了 深入 学 习 本 章 所 述 的 知识 ， 一 定 要 阅读 Python 语言 参考 手册 
中 “Data Model” 一 章 里 的 “3.3.3. Customizing class creation” — Ti 
(https://docs.python.org/3/reference/datamodel.html#metaclasses) ~ “Built- 
in Functions” — = type 类 的 文档 
Chttps://docs.python.org/3/library/functions.html#type) ， 以 及 标准 库 参 考 
中 “Built-in Types” 一 章 里 的 “4.13. Special Attributes” 一 节 
(https://docs.python.org/3/library/stdtypes.html#special-attributes ) 。 此 
外 ， 在 标准 库 参 考 中 ，types 模块 的 文档 
(https://docs.python.org/3/library/types.html〉 说 明了 Python 3.3 引入 的 两 
个 新 函数 ， 这 两 个 函数 用 于 辅助 类 元 编程 : types.new_class(...) 
Al types. prepare_class(...)。 


类 装饰 器 的 规范 是 “PEP 3129 一 Class 
Decorators”(https:/www.python.org/dev/peps/pep-3129/〉， 作 者 是 
Collin Winter， 参 考 实 现 由 Jack Diederich 提供 。Jack Diederich 在 PyCon 
2009 大 会 上 做 了 一 场 题 为 “Class Decorators: Radically Simple” 的 演讲 

(视频 : https://www.youtube.com/watch?v=cAGILiIEJV9 o) ， 对 这 个 功能 
做 了 简单 介绍 。 


Alex Martelli 写 的 《Python 技术 手册 《第 2 版) 》 对 元 类 的 说 明 很 出 

色 ， 还 实现 了 metaMetaBunch 元 类 ， 其 作用 与 示例 21-2 中 简单 的 
record_factory 函数 一 样 ， 不 过 完善 得 多 。Martelli 没有 探讨 类 装饰 
器 ， 因 为 这 个 功能 在 那 本 书 出 版 后 才 引 入 。Beazley 和 Jones 在 他 们 合 著 
的 《Python Cookbook (E 3 fig) 中 文 版 》 中 提供 了 几 个 示例 ， 很 好 地 演 
示 了 类 装饰 器 和 元 类 。Michael Foord 写 了 一 篇 引人入胜 的 文章 ， 题 

为 “Meta-classes Made Easy: Eliminating self with 

Metaclasses” Chttp://www.voidspace.org.uk/python/articles/metaclasses.shtml 


副标题 (“借助 元 类 去 掉 self?) 说 明了 一 切 。 


元 类 的 主要 参考 资料 有 引入 特殊 方法 __prepare _ 的 “PEP 3115 一 
Metaclasses in Python 3000” Chttps://www.python.org/dev/peps/pep- 

3115/) ， 以 及 Guido van Rossum 发 布 的 文章 “Unifying types and classes in 
Python 


Ie 


2.2” Chttps://www.python.org/download/releases/2.2.3/descrintro/) . 3X fm 
文章 也 适用 于 Python3， 谈 到 了 后 来 称 为 "新式 类 ”的 语义 ， 包 括 描述 符 
和 元 类 ， 一 定 要 阅读 。Guido 在 文中 提 到 了 Ira R. Forman 与 Scott H. 
Danforth 合 著 的 Putting Metaclasses to Work: a New Dimension in Object- 
Oriented Programming ( Addison- Wesley 出 版 社 ，1998 年 ) ， 他 在 亚 马 
还 上 给 这 本 书 打 了 五 颗 星 ， 还 写 了 如 下 评论 : 


这 本 书 促成 Python 2.2 实现 了 元 类 
可 惜 ， 这 本 书 已 经 绝版 了 。Python 通过 super() 函数 实现 了 协作 


式 多 重 继承 ， 谈 到 这 方面 的 难题 时 ， 我 总 会 提 到 这 本 书 ;， 据 我 所 
知 ， 这 本 书 是 这 方面 最 好 的 教程 。 


6 摘自 亚马逊 网 站 中 Putting Metaclasses to Work 的 商品 目录 页 面 
Chttp//amzn.to/IHGwKDO) 。 目 前 还 有 二 手书 出 售 。 我 买 了 一 本 ， 发 现 很 难 读 懂 ， 不 过 以 后 
我 可 能 会 再 读 。 


“PEP 487—Simpler customization of class 

creation” Chttps://www.python.org/dev/peps/pep-0487/) 提议 为 Python 

3.5《〈 写 到 这 里 时 ， 处 于 内 测 阶 段 ) 添加 一 个 新 的 特殊 方法 

_ init_subclass_，“ 让 普通 的 类 〈 即 ， 不 是 元 类 ) 定制 子 类 的 初始 
化 。 与 类 装饰 器 一 样 ，_ init_subclass _ 方法 能 让 类 元 编程 变 得 更 
简单 ， 但 会 导致 元 类 这 个 强大 的 功能 更 难 正 确 使 用 。 


7 现在 ，Python 3.5 已 经 正式 发 布 ，PEP 487 没有 在 Python 3.5 中 实现 ， 而 是 推迟 到 Python 3.6 
中 。 编者 注 


如 果 你 喜欢 元 编程 ， 可 能 希望 Python 提供 基本 的 元 编程 功能 一 一 Elixir 
和 Lisp 语言 族 提供 的 句法 宏 。 天 遂 人 愿 ， 我 们 有 


MacroPy Chttps://github.com/lihaoyi/macropy) 可 用 。 
杂谈 


这 是 本 书 最 后 一 篇 “杂谈 ”了 ， 首 先 我 要 从 Brian Harvey 与 Matthew 
Wright 合 写 的 著作 中 引述 一 大 段 文 字 。Harvey 和 Wright 是 加 州 大 学 

《伯克利 分 校 和 对 巴巴 拉 分 校 ) 的 计算 机 科学 教授 ， 他 们 在 合 著 的 
Simply Scheme 一 书 中 写 道 : 


计算 机 科学 的 教学 方式 分 成 两 个 流派 ， 可 以 描述 如 下 。 


(1) 保守 派 计算 机 程序 已 经 变 得 极其 大 而 复杂 ， 超 过 了 人 类 思 
维 所 能 承载 的 限度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 训练 平庸 
A 

Fo 


(2) 激 进 派 Th ALE CARMA AM AR, SAKA 
维 所 能 承载 的 限度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 教 人 如 何 
拓展 思维 ， 打 破 常 规 ， 学 习 以 更 广博 、 更 强大 和 更 灵活 的 方式 
思考 ， 让 思维 超越 程序 。 编 程 思想 的 各 个 方面 在 程序 中 必 会 得 
到 充分 体现 。8[Brian Harvey and Matthew Wright, Simply Scheme 
(MIT Press, 1999), p. xvii. 伯克利 分 校 的 网 站 中 有 此 书 全 文 
Chttps://www.eecs.berkeley.edu/~bh/ss-toc2.html) © ]} 


Brian Harvey 和 Matthew Wright 
Simply Scheme Hil 3 


这 是 Harvey 和 Wright 对 计算 机 科学 教育 的 夸张 描述 ， 不 过 也 适用 
于 编程 语言 的 设计 。 现 在 ， 你 应 该 能 猜 到 ， 我 赞成 “激进 派 "， 我 认 
为 Python 也 是 以 这 种 态度 设计 的 。 


为 了 稳扎稳打 ，Java 从 一 开始 使 用 的 就 是 存 取 方 法 ， 而 且 众多 Java 
IDE 都 提供 了 生成 读 值 方法 和 设 值 方法 的 快捷 键 ， 与 此 相 比 ， 特 性 
算是 一 大 进步 。 特 性 的 主要 优点 是 ， 一 开始 编写 程序 时 可 以 先 把 属 
性 设 为 公开 的 (遵照 KISS 原则 〉， 因 为 公开 的 属性 无 需 大 幅 改 
动 ， 随 时 都 能 变 成 特性 。 不 过 ， 描 述 符 更 进一步 ， 提 供 了 去 除 存 取 
方法 中 化 辑 重 复 的 机 制 。 这 种 机 制 特 别 有 效 ， 因 此 基本 的 Python 结 
构 在 背后 也 用 到 了 描述 符 。 


Fa SRA Ae, JERS ESET A, Are it ea BP S 
道路 。 描 述 符 和 高 阶 函 数 合 在 一 起 实现 ， 使 得 函数 和 方法 的 统一 成 
AVM Ae. PAA get ”方法 能 即时 生成 方法 对 象 ， 把 实例 绑 定 
到 self 参数 上 。 这 种 做 法 相当 优雅 。” 


最 后 ，Python 中 的 类 也 是 一 等 对 象 。 作 为 一 门 对 初学 者 友好 的 语 
BH» Python 能 提供 类 装饰 器 ， 允 许 用户 定 义 功 能 完整 的 元 类 ， 这 些 
强大 的 抽象 真是 太 棒 了 。 最 棒 的 是 ， 这 些 高 级 功能 没有 拖累 日 闻 纺 


程 〈 其 实 无 形 中 提供 了 帮助 ) . Django 和 SQLAIchemy 等 框架 用 起 
来 这 么 方便 ， 发 展 得 这 么 成 功 ， 很 大 程度 上 归功 于 元 类 ， 而 这 些 工 
a u 不 过 ， 他 们 可 以 学 习 ， 去 创建 下 
S HJE o 


我 还 未 见 过 有 哪 门 语言 像 Python ix FPS AT AE, EIRE BPA 
门 ， 让 专业 人 士 用 着 顺手 ， 让 程序 高 手 欢 欣 豆 舞 。 感 谢 Guido van 
Rossum， 以 及 为 此 努力 的 每 个 人 。 


?David Gelernter 写 的 Machine Beauty (Basic Books 出 版 社 ) 是 一 本 非常 有 趣 的 小 书 ， 对 工程 
作品 (从 桥梁 到 软件 ) 的 优雅 和 美学 做 了 阐述 。 


+ >. 
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Python 是 给 法 定 成 年 人 使 用 的 语言 。 


Alan Runyan 
Plone 的 联合 创始 人 


Alan 的 精辟 定义 道 出 了 Python 最 好 的 特质 之 一 : 它 不 妨碍 你 ， 让 你 做 
你 该 做 的 事 。 这 也 意味 着 ， 它 不 会 给 你 提供 工具 ， 让 你 限制 其 他 人 能 对 
你 的 代码 和 代码 所 构建 的 对 象 做 什么 。 


当然 ，Python 不 完美 。 对 我 来 说 ， 最 没 法 接受 的 是 ，Python 在 标准 库 中 
混用 驼峰 式 和 蛇 底 式 ， 或 者 直接 把 单词 连 在 一 起 。 但 是 ， 语 言 的 定义 和 
标准 库 只 是 生态 系统 的 一 部 分 。 用 户 和 贡献 者 组 成 的 社区 才 是 Python Æ 
态 系统 最 重要 的 部 分 。 


有 一 个 例子 可 以 说 明 社 区 的 好 处 。 一 天 早上 ， 我 在 撰写 asyncio 包 相 
关 的 内 容 时 ， 感 到 很 诅 形 ， 因 为 那个 包 的 API 有 很 多 函数 ， 其 中 有 些 是 
协 程 ， 可 是 协 程 必须 使 用 yield from 调用 ， 而 常规 的 函数 不 能 这 么 
做 。 这 在 asyncio 包 的 文档 中 有 说 明 ， 可 是 有 时 阅读 几 段 文字 之 后 才 
能 确定 某 个 函数 是 不 是 协 程 。 因 此 ， 我 给 python-tulip 邮件 列表 发 了 一 
个 消息 ， 题 为 "Proposal: make coroutines stand out in the asyncio 

docs” Chttps://groups.google.com/forum/#!topic/python- 
tulip/Y4bhLNbKs74) > asyncio 包 的 核心 开发 者 Victor 
Stinner、aiohttp 包 的 主要 作者 Andrew Svetlov、Tornado 的 首席 开发 者 
Ben Darnell, LA Twisted 的 发 明 者 Glyph Lefkowitz 加 入 了 讨论 。 
Darnell 提出 了 一 个 方案 ，Alexander Shorin 解说 如 何在 Sphinx 中 实现 ， 
Stinner 添加 了 所 需 的 配置 和 标记 。 我 提出 这 个 问题 不 到 12 小 

时 ，asyncio 包 的 整个 线 上 文档 都 更 新 了 ， 添 加 了 今天 你 所 看 到 

的 “coroutine” 标 签 (https://docs.python.org/3/library/asyncio- 
eventloop.html#executor) 。 


在 排外 的 社区 中 绝 不 会 有 这 种 事 。 任 何人 都 能 加 入 python-tulip 邮件 列 
表 ， 我 编写 那个 提议 之 前 只 发 布 过 几 次 消息 而 已 。 这 个 故事 表明 ， 
Python 社区 特别 开放 ， 广 纳 新 想法 和 新 成 员 。Guido van Rossum 也 在 


python-tulip 邮件 列表 中 ， 即 使 是 简单 的 问题 也 经 党 回答 。 


还 有 一 个 例子 能 说 明 Python 的 开放 : Python 软件 基金 会 (Python 
Software Foundation, PSF) 一 直 在 努力 提升 Python 社区 的 多 样 性 ， 而 且 
已 经 达成 一 些 令 人 欣喜 的 成 果 。2013 一 2014 年 ，PSF 董事 会 首次 选 出 
了 女性 董事 一 一 Jessica McKellar 和 Lynn Root. 2015 年 在 蒙特 利 尔 举办 
的 PyCon North America K& (Diana Clarke EFF) , 2“ 1/3 的 演讲 者 是 
女性 。 我 还 没 见 过 其 他 IT 大 会 如 此 追求 性 别 平等 。 


如 果 你 是 Python 程序 员 ， 但 尚未 加 入 社区 ， 我 建议 你 快 点 加 入 。 寻 找 你 
所 在 地 区 的 Python 用 户 组 (Python Users Group, PUG) > WRA, H 
就 创建 一 个 。 任 何 地 方 都 有 人 使 用 Python， 你 并 不 孤独 。 如 果 可 能 的 
话 ， 参 加 别处 举办 的 会 议 。 来 参加 PythonBrasil 大 会 吧 ， 多 年 以 来 这 个 
大 会 都 有 来 自 世 界 各 地 的 演讲 者 。 与 其 他 Python 程序 员 见 面 比 任何 线 上 
互动 都 好 ， 除 了 可 以 获得 别人 分 享 的 知识 外 ， 还 有 很 多 好 处 ， 例 如 工作 
机 会 和 真正 的 友谊 。 


我 知道 ， 如 果 没 有 多 年 来 我 在 Python 社区 中 结交 的 朋友 的 帮助 ， 我 不 可 
能 写 出 这 本 书 。 


我 的 父亲 说 过 ,，“S6 erra quem trabalha”， 这 是 葡萄 牙 语 ， 意 思 是 “只 有 真 
正 做 事 的 人 才 会 犯错 ?”。 这 个 建议 很 棒 ， 能 让 你 不 再 害怕 失败 ， 迈 步 癌 
前 。 撰 写 这 本 书 的 过 程 中 ， 我 表 定 犯 了 错误 。 审 校 、 编 辑 和 预先 发 布 版 
的 读者 玫 我 找 出 了 很 多 错误 。 早 期 发 布 版 刚 发 布 几 小 时 ， 就 有 一 个 读者 
在 本 书 的 勘误 页 面 Chttp://www.oreilly.com/catalog/errata.csp? 
isbn=0636920032519) 报告 拼写 错误 。 其 他 读者 报告 了 更 多 错误 ， 我 的 
朋友 还 直接 联系 我 ， 提 供 建议 和 更 正 。 我 写 完 本 书后 ，O'Reilly 的 文字 
编辑 会 在 出 版 过 程 中 找 出 其 他 错误 。 如 果 还 有 任何 错误 和 词 不 达意 的 表 
述 ， 贡 任 都 在 我 ， 在 此 回 各 位 读者 致歉。 


终于 写 完 这 本 书 了 ， 我 特别 高 兴 ， 无 论 有 没有 错误 ， 我 都 十 分 感激 一 路 
上 给 我 帮助 的 每 个 人 。 


希望 很 快 就 能 在 会 议 上 见 到 你 。 如 果 见 到 我 ， 请 过 来 打 声 招呼 。 


延伸 阅读 


在 本 书 的 最 后 ， 我 要 介绍 一 些 “Python 风格 ”的 参考 资料 一 一 这 正 是 本 书 
尝试 解决 的 主要 问题 。 


Brandon Rhodes 是 位 出 色 的 Python 教师 ， 他 的 演讲 “A Python Æsthetic: 
Beauty and Why I Python” (https://www.youtube.com/watch?v=x- 
kB2o8sd5c) 很 精彩 ， 从 标题 中 使 用 的 Unicode 字符 U+00C6 (拉丁 语 大 
写字 母 AE) 开始 谈 起 。 男 一 位 出 色 的 教师 Raymond Hettinger， 在 2013 
年 的 PyCon US 大 会 上 谈 了 Python 之 美 : “Transforming Code into 
Beautiful, Idiomatic Python” Chttps://www.youtube.com/watch? 
v=OSGv2VnC0go) 。 


Ian Lee 在 Python-ideas 邮件 列表 中 发 起 的 “Evolution of Style Guides” 14 el 
Chttps://mail.python.org/pipermail/python-ideas/2015-March/032557.html ) 
值得 一 读 。Lee 是 pep8  Chttps://pypi.python.org/pypi/pep8/) 的 维护 
者 ， 这 个 包 的 作用 是 检查 Python 代码 是 否 符合 PEP 8。 检 查 书 中 的 代码 
时 ， 我 用 的 是 flake8 Chttps://pypi.python.org/pypi/flake8) ， 这 个 包 融 
合 了 pep8、pyflakes (https://pypi.python.org/pypi/pyflakes) 和 Ned 
Batchelder 开发 的 McCabe 复杂 度 插 件 
Chttps://pypi.python.org/pypi/mccabe) 。 


除了 PEP 8，Google 的 Python 风格 指南 (https://google- 
styleguide.googlecode.com/svn/trunk/pyguide.html) 和 Pocoo 风格 指南 

Chttp://www.pocoo.org/internal/styleguide/) 也 有 很 大 的 影响 。Pocoo 
队 为 我 们 开发 了 Flask, Sphinx, Jinja 2 和 其 他 优秀 的 Python 库 。 


The Hitchhiker's Guide to Python! Chttp://docs.python-guide.org/en/latest/ ) 

由 多 人 维护 ， 说 明 如 何 编写 符号 Python 风格 的 代码 。 为 这 个 项 目 页 献 最 
多 内 容 的 是 Kenneth Reitz， 他 因 开 发 特别 符合 Python 风格 的 requests 
包 而 被 社区 视 为 英雄 。David Goodger 在 2008 年 举办 的 PyCon US 大 会 
上 办 了 一 场 教学 活动 ， 题 为 “Code Like a Pythonista: Idiomatic 

Python” Chttp://python.net/~goodger/projects/pycon/2007/idiomatic/handout.ht 
如 果 打 印 出 来 ， 这 个 教程 的 教案 有 30 页 。 当 然 ， 教 案 的 
reStructuredText 源码 能 下 载 到 ， 可 以 使 用 docutils tia ¥en HTML 


和 S5 AKT Fr Chttp://meyerweb.com/eric/tools/s5/) > RR, 
reStructuredText 和 docutils 都 是 Goodger 的 作品 。 这 两 个 工具 是 
Sphinx 的 基础 。Sphinx 是 优秀 的 Python 文档 系统 ， 顺 便 提 一 下 ， 
MongoDB Chttps://docs.mongodb.org/manual/about/#about-the- 
documentation-process) 和 很 多 其 他 项 目的 官方 文档 系统 都 是 Sphinx。 


Martijn Faassen 直接 回答 了 “什么 是 Python 风格 "这 个 问题 

Chttp://blog.startifact.com/posts/older/what-is-pythonic.html) , python-list 
邮件 列表 中 也 有 一 个 相同 标题 的 话题 

Chttps://mail.python.org/pipermail/tutor/2003-October/025930.html) 。 
Martijn 的 文章 是 2005 年 写 的， 那个 话题 是 2003 年 讨论 的 ， 不 过 Python 
风格 的 思想 没 怎么 变化 ，Python 语言 本 身 也 是 如 此 。 “Pythonic way to 
sum n-th list element?” 话 题 (https://mail.python.org/pipermail/python- 
list/2003-April/192027.html〉 对 Python 风格 做 了 深入 讨论 ， 我 在 第 10 章 
的 “杂谈 ”中 有 大 量 引用 。 


“PEP 3099 — Things that will Not Change in Python 

3000” Chttps://www.python.org/dev/peps/pep-3099/) 解释 了 经 过 Python 3 

大 幅度 的 调整 之 后 ， 为 何许 多 东西 仍 是 现在 的 样子 。 长 久 以 来 ，Python 

3 有 个 昵称 一 一 Python 3000， 不 过 诞生 时 间 早 了 几 个 世纪 ， 这 让 一 些 人 

失望 。PEP 3099 的 作者 是 Georg Brandl， 他 收集 了 仁慈 的 独裁 者 〈 即 

Guido van Rossum) 的 很 多 观点 。Python Essays 页 面 
Chttps://www.python.org/doc/essays/) 列 出 了 很 多 Guido 自己 写 的 文章 。 


附录 A 辅助 脚本 


有 些 脚本 太 长 ， 在 正文 里 放 不 下 ， 这 里 将 其 完整 列 出 。 此 外 ， 有 些 脚本 
用 于 生成 书 中 的 表格 和 数据 ， 这 里 一 并 列 出 。 


这 里 列 出 的 脚本 ， 以 及 书 中 几乎 每 个 代码 片段 ， 见 于 本 书 的 代码 仓库 
(https://github.com/fluentpython/example-code ) 。 


Al 838: in 运算 符 的 性 能 测试 


表 3-6 中 的 计时 数据 是 我 使 用 示例 A-l 中 的 代码 生成 的 ， 这 段 代 码 用 到 
了 timeit 模块 。 这 个 脚本 主要 用 于 设置 haystack 和 needles 样本 ， 
并 格式 化 输出 。 


编写 示例 A-1 时 ， 我 发 现 的 确 能 客观 比较 dict 的 性 能 。 如 果 在 “详细 模 
式 ” (指定 命令 行 选项 -v) 中 运行 这 个 脚本 ， 用 时 几乎 是 表 3-5 中 的 两 
倍 。 但 是 注意 ， 对 这 个 脚本 来 说 ， 在 “详细 模式 ”中 ， 只 是 多 了 用 于 设置 
测试 内 容 的 四 个 print 调用 ， 以 及 在 各 个 测试 结束 后 显示 找到 多 少 个 
needles 的 那个 print 调用 。 在 haystack 中 搜索 needles 的 那个 循 
环 没有 输出 ， 不 过 这 五 个 print 调用 耗费 的 时 间 与 搜索 1000 个 
needles 差不多 。 


示例 A-1 container perftest.py: 运行 时 以 内 置 集 合 类 型 的 名 称 为 命 
令 行 参 数 〈 例 如 container_perftest.py dict) 


对 容器 的 `…in` 运算 符 做 性 能 测试 


import sys 
import timeit 


SETUP = ''' 
import array 


selected = array.array(‘d') 
with open('selected.arr', 'rb') as fp: 
selected.fromfile(fp, {size}) 
if {container_type} is dict: 
haystack = dict.fromkeys(selected, 1) 
else: 
haystack = {container_type}(selected) 
if {verbose}: 
print(type(haystack), end=' ') 
print('haystack: %10d' % len(haystack), end=' ') 
needles = array.array(‘d') 
with open('not_selected.arr', 'rb') as fp: 
needles.fromfile(fp, 500) 
needles.extend(selected[::{size}//500]) 


if {verbose}: 
print(' needles: %1@d' % len(needles), end=' ') 


TEST =" 
found = @ 
for n in needles: 
if n in haystack: 
found += 1 
if {verbose}: 
print(' found: %10d' % found) 


def test(container_type, verbose): 
MAX_EXPONENT = 7 
for n in range(3, MAX_EXPONENT + 1): 
size = 10**n 
setup = SETUP. format(container_type=container_type, 
size=size, verbose=verbose) 
test = TEST.format(verbose=verbose) 
tt = timeit.repeat(stmt=test, setup=setup, repeat=5, number=1) 
print('|{:{}d}|{:f}'.format(size, MAX_EXPONENT + 1, min(tt))) 
if _name ==' main_': 
if '-v' in sys.argv: 
sys.argv.remove('-v') 
verbose = True 
else: 
verbose = False 
if len(sys.argv) != 2: 
print('Usage: %s <container_type>' % sys.argv[®@]) 
else: 
test(sys.argv[1], verbose) 


container perftest datagen.py 脚本 〈 见 示例 A-2) 为 示例 A-1 中 的 脚本 生 
成 固件 数据 。 


示例 A-2 container perftest datagen.py: 生成 由 不 同 的 浮 点 数组 成 
的 数组 ， 然 后 写 入 文件 ， 供 示例 A-1 使 用 


生成 容器 性 能 测试 所 需 的 数据 


import random 
import array 


MAX_EXPONENT = 7 
HAYSTACK_LEN = 10 ** MAX_EXPONENT 

NEEDLES LEN = 10 ** (MAX EXPONENT - 1) 
SAMPLE_LEN = HAYSTACK_LEN + NEEDLES LEN // 2 


needles = array.array(‘d') 


sample = {1/random.random() for i in range(SAMPLE_LEN) } 
print('initial sample: %d elements' % len(sample) ) 


# 完整 的 样本 ， 防 止 丢弃 了 重复 的 随机 数 
while len(sample) < SAMPLE LEN: 
sample.add(1/random.random()) 


print('complete sample: %d elements' % len(sample)) 


sample = array.array('d', sample) 
random. shuffle(sample) 


not_selected = sample[:NEEDLES LEN // 2] 

print('not selected: %d samples' % len(not_selected)) 

print(' writing not_selected.arr') 

with open('not_selected.arr', 'wb') as fp: 
not_selected.tofile(fp) 


selected = sample[NEEDLES LEN // 2: ] 

print('selected: %d samples' % len(selected)) 

print(' writing selected.arr') 

with open('selected.arr', 'wb') as fp: 
selected. tofile(fp) 


A2 第 3 章 : 比较 散 列 后 的 位 模式 


示例 A-3 是 个 简单 的 脚本 ， 告 诉 你 相似 浮 点 数 〈 例 如 1.0001、1.0002， 
等 等 ) 的 位 模式 有 什么 差异 。 这 个 脚本 的 输出 在 示例 3-16 H. 


示例 A-3 hashdiffipy: 显示 散 列 值 的 位 模式 有 何 差异 


import sys 


MAX_BITS = len(format(sys.maxsize, 'b')) 
print('%s-bit Python build' % (MAX_BITS + 1)) 


def hash_diff(o1, 02): 

h1 = '{:>0{}b}'.format(hash(o1), MAX_BITS) 

h2 = '{:>0{}b}'.format(hash(o2), MAX_BITS) 

diff = ''.join('!' if b1 != b2 else ' ' for b1, b2 in zip(h1, h2)) 

count "l= {}'.format(diff.count('!')) 

width = max(len(repr(o1)), len(repr(o2)), 8) 

sep = '-' * (width * 2 + MAX_BITS) 

return '{!r:{width}} {}\n{:{width}} {} {}\n{!r:{width}} {}\n{}' .format ( 
o1, h1, ' ' * width, diff, count, 02, h2, sep, width=width) 


if _name_ == ' main_': 
print(hash_diff(1, 1.0)) 
print(hash_diff(1.0, 1.0@@1) ) 
print(hash_diff(1.0001, 1.0002)) 
print(hash_diff(1.0002, 1.0003) ) 


A3 第 9 章 : 有 或 没有 _slots_ 时 ， 
RAM 的 用 量 

memtest.py 脚本 用 于 支持 9.8 市 的 一 个 演示 
memtest.py 脚本 从 命令 行 中 接收 一 个 模块 的 名 称 ， 加 载 那个 模块 。 假 设 
模块 中 定义 有 一 个 名 为 Vector 的 类 ，memtest.py 脚本 会 创建 一 个 由 一 
干 万 个 实例 组 成 的 列表 ， 然 后 报告 创建 列表 前 后 内 存 的 用 量 。 


示例 A-4 memtest.py: 创建 大 量 Vector 实例 ， 报 告 内 存 用 量 


示例 9-12。 


import importlib 
import sys 
import resource 


NUM_VECTORS = 10**7 


if len(sys.argv) == 2: 
module_name = sys.argv[1].replace('.py', '') 
module = importlib.import_module(module_name) 
else: 
print('Usage: {} <vector-module-to-test>' .format() ) 
sys.exit(1) 


fmt = 'Selected Vector2d type: {._ name }.{. name _}' 
print(fmt.format(module, module.Vector2d) ) 


mem_init = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 
print('Creating {:,} Vector2d instances‘ .format(NUM_VECTORS) ) 


vectors = [module.Vector2d(3.0, 4.0) for i in range(NUM_VECTORS) ] 


mem_final = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 
print('Initial RAM usage: {:14,}'.format(mem_init) ) 
print(' Final RAM usage: {:14,}'.format(mem_final) ) 


A.4 第 14 章 : 转换 数据 库 的 isis2json.py 脚 
本 


示例 A-5 是 14.13 节 讨 论 的 isis2json.py 脚本 。 这 个 脚本 使 用 生成 器 函 
数 ， 以 惰性 的 方式 把 CDS/ISIS 数据 库 转 换 成 JSON 格式 ， 以 便 载 入 到 
CouchDB 或 MongoDB。 


注意 ， 这 是 个 Python 2 脚本 ， 针 对 CPython 或 Jython， 支 持 Python 
2.5~2.7， 不 能 使 用 Python 3 运行 。 在 CPython 中 ， 只 能 读 取 .iso 文件 ; 
在 Jython 中 ， 使 用 GitHub  fluentpython/isis2json 仓库 

Chttps://github.com/fluentpython/isis2json) 里 的 Bruma 库 ， 还 可 以 读 取 
.mst 文件 。 详 情 参见 该 仓库 里 的 用 法 文档 。 


示例 A-$ isis2json.py: 依赖 和 文档 在 GitHub 中 的 
fluentpython/isis2json 仓库 里 


# 这 个 脚本 支持 Python 和 Jython (版 本 >=2.5 月 &1t;3) 


import sys 

import argparse 

from uuid import uuid4 
import os 


try: 
import json 
except ImportError: 
if os.name == 'java': # 在 Jython 中 运行 
from com.xhaus.jyson import JysonCodec as json 
else: 
import simplejson as json 


SKIP_INACTIVE = True 
DEFAULT_QTY = 2**31 
ISIS MFN KEY = 'mfn' 

ISIS ACTIVE_KEY = ‘active’ 
SUBFIELD DELIMITER = '^' 
INPUT_ENCODING = 'cp1252' 


def iter_iso records(iso file name, isis json type): © 


def 


from iso2709 import IsoFile 
from subfield import expand 


iso = IsoFile(iso_file_name) 
for record in iso: 
fields = {} 
for field in record.directory: 
field key = str(int(field.tag)) # 删除 前 导 零 
field_occurrences = fields.setdefault(field_key, []) 
content = field.value.decode(INPUT_ENCODING, ‘replace’ ) 
if isis json type == 
field_occurrences.append(content ) 
elif isis json type == 
field_occurrences.append(expand(content) ) 
elif isis json type == 
field _occurrences.append(dict(expand(content) )) 
else: 
raise NotImplementedError('ISIS-JSON type %s conversion 
"not yet implemented for .iso input’ % isis json type) 


yield fields 
iso.close() 


iter_mst_records(master_file name, isis json type): @ 
try: 
from bruma.master import MasterFactory, Record 
except ImportError: 
print('IMPORT ERROR: Jython 2.5 and Bruma.jar ' 
"are required to read .mst files') 
raise SystemExit 
mst = MasterFactory.getInstance(master_file_ name) .open() 
for record in mst: 
fields = {} 
if SKIP_INACTIVE: 
if record.getStatus() != Record.Status.ACTIVE: 
continue 
else: # 仅 当 没有 活动 的 记录 时 才 保存 状态 
fields[ISIS ACTIVE_KEY] = (record.getStatus() == 
Record.Status.ACTIVE) 
fields[ISIS MFN KEY] = record.getMfn() 
for field in record.getFields(): 
field key = str(field.getId()) 
field_occurrences = fields.setdefault(field_key, []) 
if isis json type == 
content = {} 
for subfield in field.getSubfields(): 


subfield key = subfield.getId() 
if subfield_key == '*': 
content['_'] = subfield.getContent() 
else: 
subfield occurrences = content.setdefault(subfield ke 
subfield _occurrences.append(subfield.getContent() ) 
field_occurrences.append(content ) 
elif isis json type == 
content = [] 
for subfield in field.getSubfields(): 
subfield key = subfield.getId() 
if subfield_key == '*': 
content.insert(@, subfield.getContent()) 
else: 
content.append(SUBFIELD DELIMITER + subfield_key + 
subfield. getContent()) 
field _occurrences.append(''.join(content) ) 
else: 
raise NotImplementedError('ISIS-JSON type %s conversion ' 
"not yet implemented for .mst input' % isis json type) 
yield fields 
mst.close() 


def write _json(input_gen, file name, output, qty, skip, id tag, © 
gen_uuid, mongo, mfn, isis json_type, prefix, 
constant): 
start = skip 
end = start + qty 
if id_tag: 
id tag = str(id_tag) 
ids = set() 
else: 
id_tag = 
for i, record in enumerate(input_gen): 
if i >= end: 
break 
if not mongo: 
if i == 
output.write('[') 
elif i > start: 
output.write(',') 
if start <= i < end: 
if id_tag: 
occurrences = record.get(id_tag, None) 
if occurrences is None: 
msg = ‘id tag #%s not found in record %s' 


if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS MFN_KEY]) 
raise KeyError(msg % (id_tag, i)) 
if len(occurrences) > 1: 
msg = ‘multiple id tags #%s found in record %s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS MFN_KEY]) 
raise TypeError(msg % (id_tag, i)) 
else: # 好 吧 ， 有 且 仅 有 一 个 id 字段 
if isis json type == 
id = occurrences[6] 
elif isis json type == 
id = occurrences[@][@][1] 
elif isis json type == 3: 
id = occurrences[@]|['_'] 
if id in ids: 
msg = ‘duplicate id %s in tag #%s, record %s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS MFN_KEY]) 
raise TypeError(msg % (id, id_tag, i)) 
record[' id'] = id 
ids.add(id) 
elif gen_uuid: 


record[' id'] = unicode(uuid4()) 
elif mfn: 

record['_id'] = record[ ISIS MFN_KEY] 
if prefix: 


# TEARS FE AY bs SE FF) 
for tag in tuple(record): 
if str(tag).isdigit(): 
record[prefix+tag] = record[tag | 
del record[tag] # 这 就 是 迭代 元 组 的 原因 
# 获取 标签 ， 但 不 直接 从 记录 字典 中 获取 
if constant: 
constant_key, constant_value = constant.split(':') 
record[constant_key] = constant_value 
output.write(json.dumps(record) .encode('utf-8')) 
output.write('\n') 
if not mongo: 
output.write(']\n') 


def main(): @ 
# 创建 解析 器 
parser = argparse.ArgumentParser( 
description='Convert an ISIS .mst or .iso file to a JSON array’) 


# 添加 参数 
parser.add_argument( 
‘file name', metavar='INPUT.(mst|iso)', 
help='.mst or .iso file to read') 
parser.add_argument( 
"-o', '--out', type=argparse.FileType('w'), default=sys.stdout, 
metavar='OUTPUT.json', 
help='the file where the JSON output should be written' 
' (default: write to stdout)') 
parser.add_argument( 
"-c', ‘--couch', action='store_true’, 
help='output array within a "docs" item in a JSON document’ 
' for bulk insert to CouchDB via POST to db/_bulk_docs') 
parser.add_argument( 
"-m', ‘--mongo', action='store_true’, 
help='output individual records as separate JSON dictionaries, one' 
' per line for bulk insert to MongoDB via mongoimport utility’ ) 
parser.add_argument( 
"-t', '‘--type', type=int, metavar='ISIS JSON _TYPE', default=1, 
help='ISIS-JSON type, sets field structure: 1=string, 2=alist, ' 
' 3=dict (default=1)') 
parser.add_argument( 
"-q', ‘--qty', type=int, default=DEFAULT_ QTY, 
help='maximum quantity of records to read (default=ALL)') 
parser.add_argument( 
"-s', '--skip', type=int, default=0, 
help='records to skip from start of .mst (default=@)') 
parser.add_argument( 
"-i', '--id', type=int, metavar='TAG NUMBER’, default=@, 
help='generate an "_id" from the given unique TAG field number' 
' for each record' ) 
parser.add_argument( 
"-u', ‘--uuid', action='store_true', 
help='generate an "_id" with a random UUID for each record’ ) 
parser.add_argument( 
"-p', ‘--prefix', type=str, metavar='PREFIX', default='"', 
help='concatenate prefix to every numeric field tag' 
" (ex. 99 becomes "v99")') 
parser.add_argument( 
"-n', ‘--mfn', action='store_true', 
help='generate an "_id" from the MFN of each record’ 
' (available only for .mst input) ') 
parser.add_argument( 
"-k', ‘--constant', type=str, metavar='TAG:VALUE', default='', 
help='Include a constant tag:value in every record (ex. -k type:AS)') 


# TODO: 实现 这 个 功能 ， 导 出 大 量 记录 供给 CouchDB 
parser.add argument( 
'-r', '--repeat', type=int, default=1, 
help='repeat operation, saving multiple JSON files' 
' (default=1, use -r @ to repeat until end of input)') 


# 解析 命令 行 
args = parser.parse_args() 
if args.file_name.lower().endswith('.mst'): 
input gen func = iter mst records © 
else: 
if args.mfn: 
print('UNSUPORTED: -n/--mfn option only available for .mst input. 
raise SystemExit 
input_gen_func = iter_iso records © 
input_gen = input gen func(args.file_ name, args.type) @ 
if args.couch: 
args.out.write('{ "docs" : ') 
write_json(input_gen, args.file name, args.out, args.qty, © 
args.skip, args.id, args.uuid, args.mongo, args.mfn, 
args.type, args.prefix, args.constant) 
if args.couch: 
args.out.write('}\n') 
args.out.close() 


@ iter_iso_records 生成 器 函数 读 取 .iso 文件 ， 产 出 记录 。 

@ iter_mst_records 生成 器 函数 读 取 .mst 文件， 产 出 记录 。 

@ write json 函数 迭代 input_gen 生成 器 ， 输 出 json 文件 。 

O main 函数 读 取 命 令 行 参数 ， 然 后 根据 输入 文件 的 扩展 名 选择 .…… 
@ ......iter_mst_records EMA RŽ... 

@...... 或 者 iter_iso_records 生成 器 函数 。 

@ 使 用 选中 的 生成 器 函数 构建 生成 器 对 象 。 


O 把 生成 器 作为 第 一 个 参数 传 给 write_json 函数 。 


A.5 16%: 出 租车 队 离散 事件 仿真 


示例 A-6 是 16.9.2 节 讨 论 的 taxi sim.py 脚本 的 完整 代码 。 


示例 A-6 taxi simpy: 出 租车 队 仿真 程序 


H 租车: : 


>>> from taxi_sim import taxi_process 
>>> taxi = taxi_process(ident=13, trips=2, start_time=0) 
>>> next(taxi) 


Event(time=@, proc=13, action='leave garage’ ) 
>>> taxi.send(_.time + 7) 
Event(time=7, proc=13, action='pick up passenger’ ) 


>>> taxi.send(_.time + 23) 
Event (time=30, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 5) 
Event(time=35, proc=13, action='pick up passenger’ ) 
>>> taxi.send(_.time + 48) 
Event (time=83, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home ) 
>>> taxi.send(_.time + 10) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


运行 示例 : 有 两 辆 出 租车 ， 随 机 种 子 是 16。 这 是 有 效 的 doctest : : 


>>> main(num_taxis=2, seed=10) 
taxi: © Event(time=@, proc=@, action='leave garage’ ) 


taxi: © Event(time=5, proc=@, action='pick up passenger' ) 
taxi: 1 Event(time=5, proc=1, action='leave garage’ ) 

taxi: 1 Event(time=10, proc=1, action='pick up passenger’ ) 
taxi: 1 Event(time=15, proc=1, action='drop off passenger’ ) 
taxi: © Event(time=17, proc=@, action='drop off passenger’ ) 


taxi: 1 Event(time=24, proc=1, action='pick up passenger’ ) 
taxi: © Event(time=26, proc=@, action='pick up passenger’ ) 
taxi: © Event(time=30, proc=@, action='drop off passenger’ ) 
taxi: © Event(time=34, proc=@, action='going home') 

taxi: Event(time=46, proc=1, action='drop off passenger’ ) 
taxi: Event(time=48, proc=1, action='pick up passenger’ ) 
taxi: Event(time=110, proc=1, action='drop off passenger’ ) 


taxi: 
taxi: 
2k KK en 


Event(time=140, proc=1, action='drop off passenger’ ) 
Event(time=150, proc=1, action='going home ) 
of events *** 


1 
1 
1 
taxi: 1 Event (time=139, proc=1, action='pick up passenger’ ) 
1 
1 
d 


模块 末尾 有 个 更 长 的 运行 示例 。 


import random 
import collections 
import queue 
import argparse 
import time 


DEFAULT_NUMBER_OF_TAXIS = 3 
DEFAULT_END_TIME = 180 
SEARCH_DURATION = 5 
TRIP_DURATION = 20 
DEPARTURE_INTERVAL = 5 


Event = collections.namedtuple('Event', ‘time proc action') 


# BEGIN TAXI_PROCESS 
def taxi_process(ident, trips, start_time=@): 
""" 每 次 状态 变化 时 向 仿真 程序 产 出 一 个 事件 """ 
time = yield Event(start_time, ident, 'leave garage') 
for i in range(trips): 
time = yield Event(time, ident, ‘pick up passenger’ ) 
time = yield Event(time, ident, ‘drop off passenger’ ) 


yield Event(time, ident, ‘going home') 
# 结束 出 租车 进程 
# END TAXI_PROCESS 


# BEGIN TAXI_SIMULATOR 
class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() 
self.procs = dict(procs_map) 


def run(self, end_time): 
""" 调 度 并 显示 事件 ， 直 到 时 间 结 束 """ 
# 调度 各 辆 出 租车 的 第 一 个 事件 
for , proc in sorted(self.procs.items()): 
first_event = next(proc) 
self.events.put(first_event) 


# 此 次 仿真 的 主 循环 
sim time = @ 
while sim time < end time : 
if self.events.empty(): 
print('*** end of events ***') 
break 


current_event = self.events.get() 
Sim_time, proc_id, previous_action = current_event 
print('taxi:', proc_id, proc_id * ' ", current_event) 
active proc = self.procs[proc_id] 
next_time = sim_time + compute_duration(previous_action) 
try: 
next_event = active_proc.send(next_time) 
except StopIteration: 
del self.procs[proc_id] 
else: 
self.events.put(next_event) 
else: 
msg = '*** end of simulation time: {} events pending ***' 
print(msg.format(self.events.qsize())) 
# END TAXI_SIMULATOR 


def compute_duration(previous_action): 

""" 使 用 指数 分 布 计算 操作 的 耗 时 """ 

if previous action in ['leave garage', ‘drop off passenger']: 
# 新 状态 是 四 处 徘 有 
interval = SEARCH_DURATION 

elif previous_action == 'pick up passenger’: 
# 新 状态 是 行程 开始 
interval = TRIP_DURATION 

elif previous_action == ‘going home': 
interval = 1 

else: 
raise ValueError('Unknown previous_action: %s' % previous_action) 


$ 


E 


return int(random.expovariate(1/interval)) + 1 


def main(end time=DEFAULT END TIME, num_taxis=DEFAULT_NUMBER_OF_TAXIS, 
seed=None): 
""" 初 始 化 随机 生成 器 ， 构 建 过程 ， 运 行 仿真 程序 """ 
if seed is not None: 
random.seed(seed) # 获得 可 复 现 的 结果 


taxis = {i: taxi_process(i, (i+1)*2, i*DEPARTURE_INTERVAL) 
for i in range(num_taxis) } 

sim = Simulator(taxis) 

sim.run(end_time) 


if _name == ' main_': 


parser = argparse.ArgumentParser( 
description='Taxi fleet simulator.') 
parser.add_argument('-e', '--end-time', type=int, 
default=DEFAULT_END_TIME, 
help="simulation end time; default = %s' 
% DEFAULT_END_TIME) 
parser.add_argument('-t', ‘--taxis', type=int, 
default=DEFAULT_NUMBER_OF_TAXIS, 
help='number of taxis running; default = %s' 
% DEFAULT _NUMBER_OF_TAXIS) 
parser.add_argument('-s', '--seed', type=int, default=None, 
help='random generator seed (for testing) ') 


args = parser.parse_args() 
main(args.end_time, args.taxis, args.seed) 


命令 行 中 的 运行 示例 : seed=3， 最 长 用 时 =120:: 


# BEGIN TAXI_SAMPLE_RUN 

$ python3 taxi_sim.py -s 3 -e 120 

taxi: © Event(time=@, proc=@, action='leave garage’ ) 
taxi: © Event(time=2, proc=@, action='pick up passenger’ ) 
taxi: 1 Event(time=5, proc=1, action='leave garage’ ) 


taxi: 1 Event(time=8, proc=1, action='pick up passenger ' ) 
taxi: 2 Event(time=10, proc=2, action='leave garage’ ) 
taxi: 2 Event(time=15, proc=2, action='pick up passenger’ ) 
taxi: 2 Event(time=17, proc=2, action='drop off passenger’ ) 


taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 


NRPNNNPRPONNRPORPRFNNOODNFNDN O 
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Event(time=18, proc=@, action='drop off passenger’ ) 
Event(time=18, proc=2, action='pick up passenger’ ) 
Event(time=25, proc=2, action='drop off passenger’ ) 

Event(time=27, proc=1, action='drop off passenger’ ) 
Event(time=27, proc=2, action='pick up passenger’ ) 

Event(time=28, proc=@, action='pick up passenger’ ) 
Event(time=4@, proc=2, action='drop off passenger’ ) 
Event(time=44, proc=2, action='pick up passenger’ ) 

Event(time=55, proc=1, action='pick up passenger’ ) 
Event(time=59, proc=1, action='drop off passenger’ ) 
Event(time=65, proc=@, action='drop off passenger’ ) 
Event(time=65, proc=1, action='pick up passenger’ ) 
Event(time=65, proc=2, action='drop off passenger’ ) 
Event(time=72, proc=2, action='pick up passenger’ ) 
Event(time=76, proc=@, action='going home ) 
Event(time=80, proc=1, action='drop off passenger’ ) 
Event(time=88, proc=1, action='pick up passenger’ ) 
Event(time=95, proc=2, action='drop off passenger’ ) 
Event(time=97, proc=2, action='pick up passenger’ ) 
Event(time=98, proc=2, action='drop off passenger’ ) 
Event(time=106, proc=1, action='drop off passenger’ ) 
Event(time=109, proc=2, action='going home ) 
Event(time=110, proc=1, action='going home ) 


*** end of events *** 
# END TAXI_SAMPLE_RUN 


A6 第 17 重 : 加 密 示 例 


这 几 个 脚本 用 于 展示 如 何 使 用 futures . ProcessPoolExecutor 执行 
CPU 密集 型 任务 。 


示例 A-7 使 用 RC4 算法 加 密 并 解密 随机 的 字 市 数组 ， 需 要 arcfourpy 模 
块 〈 见 示例 A-8) 文 持 才能 运行 。 


示例 A-7 arcfour futures.py: futures.ProcessPoolExecutor 用 
法 示例 


import sys 

import time 

from concurrent import futures 
from random import randrange 
from arcfour import arcfour 


JOBS = 12 
SIZE = 2**18 


KEY = b"'Twas brillig, and the slithy toves\nDid gyre" 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def arcfour_test(size, key): 
in_text = bytearray(randrange(256) for i in range(size) ) 
cypher_text = arcfour(key, in_text) 
out_text = arcfour(key, cypher_text) 
assert in text == out_text, ‘Failed arcfour_test' 
return size 


def main(workers=None) : 
if workers: 
workers = int(workers) 
to = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor. max workers 
to_do = [] 
for i in range(JOBS, ©, -1): 
size = SIZE + int(SIZE / JOBS * (i - JOBS/2)) 


job = executor.submit(arcfour_test, size, KEY) 
to_do.append( job) 


for future in futures.as_completed(to_do): 
res = future.result() 
print('{:.1f} KB'.format(res/2**1@) ) 


print(STATUS.format(actual_workers, time.time() - t@)) 
if _name == ' main_': 
if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 
workers = None 
main(workers) 


示例 A-8 纯粹 使 用 Python 实现 RC4 加 密 算 法 。 


示例 A-8 arcfour.py: 兼容 RC4 的 算法 


""" 兼 容 RC4 的 算法 """ 


def arcfour(key, in_bytes, loops=2@): 


kbox = bytearray(256) # 创建 存储 键 的 数组 

for i, car in enumerate(key): # 复制 键 和 问 量 
kbox[i] = car 

j = len(key) 

for i in range(j, 256): # 重复 到 底 
kbox[i] = kbox[i-j] 


# [1] 初始 化 sbox 
sbox = bytearray(range(256) ) 


# 按照 Ciphersaber-2 的 建议 ， 不 断 打 乱 sbox 
# http://ciphersaber.gurus.com/faq.html#cs2 
j= 6 
for k in range(loops): 
for i in range(256): 
j = (j + sbox[i] + kbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 


H 
ll 
© 


out_bytes = bytearray() 


for car in in_bytes: 
i = (i +1) % 256 
# [2] 打 乱 sbox 
j = (j + sbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 


# [3] 计算 t 
t = (sbox[i] + sbox[j]) % 256 
k = sbox[t] 


car = car * k 
out_bytes.append(car) 


return out_bytes 


def test(): 
from time import time 
clear = bytearray(b'1234567890' * 100000) 
to = time() 
cipher = arcfour(b'key', clear) 
print('elapsed time: %.2fs' % (time() - t@)) 
result = arcfour(b'key', cipher) 


assert result == clear, '%r != %r' % (result, clear) 
print('elapsed time: %.2fs' % (time() - t@)) 
print('OK') 

if _name == ' main_': 
test() 


示例 A-9 使 用 SHA-256 散 列 算法 打 乱 字 节 数组 。 这 个 脚本 使 用 标准 库 
中 的 hashlib 模块 ， 而 这 个 模块 使 用 C 语言 编写 的 OpenSSL 库 。 


示例 A-9 sha futures.py: futures.ProcessPoolExecutor 用 法 
示例 


import sys 

import time 

import hashlib 

from concurrent import futures 
from random import randrange 


JOBS = 12 


SIZE = 2**20 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def 


def 


if _name__ == ' main_': 


sha(size): 

data = bytearray(randrange(256) for i in range(size) ) 
algo = hashlib.new('sha256' ) 

algo.update(data) 

return algo.hexdigest() 


main(workers=None) : 
if workers: 

workers = int(workers) 
to = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor. _max_workers 
to_do = (executor.submit(sha, SIZE) for i in range(JOBS) ) 
for future in futures.as_completed(to_do): 
res = future.result() 
print(res) 


print(STATUS.format(actual_workers, time.time() - t@)) 


if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 


workers = None 
main(workers) 


A.7 S17: flags2 系 列 HTTP 客 户 端 示 
例 


17.5 节 的 flags2 系列 示例 都 使 用 了 flags2_common.py 模块 〈 见 示例 A- 
10) 里 的 函数 。 


示例 A-10 flags2 common.py 


""" 为 后 续 flag 示 例 提供 实用 函数 。 


import os 

import time 

import sys 

import string 

import argparse 

from collections import namedtuple 
from enum import Enum 


Result = namedtuple('Result', ‘status data') 


HTTPStatus = Enum('Status', ‘ok not_found error ) 


POP26 CC = (‘CN IN US ID BR PK NG BD RU JP ' 
"MX PH VN ET EG DE IR TR CD FR').split() 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


SERVERS = { 
"REMOTE': ‘http://flupy.org/data/flags', 
"LOCAL': ‘http://localhost:8001/flags', 
"DELAY': ‘http://localhost:8002/flags', 
"ERROR': ‘http://localhost:8003/flags', 
} 


DEFAULT_SERVER = 'LOCAL' 


DEST_DIR = 'downloads/' 
COUNTRY_CODES_FILE = 'country_codes.txt' 


def 


def 


def 


def 


save_flag(img, filename): 

path = os.path.join(DEST_DIR, filename) 

with open(path, ‘wb') as fp: 
fp.write(img) 


initial_report(cc_list, actual req, server_label): 
if len(cc_list) <= 10: 

cc_msg = ', '.join(cc_list) 
else: 

cc_msg = ‘from {} to {}'.format(cc_list[@], cc_list[-1]) 
print('{} site: {}'.format(server_label, SERVERS[server_label]) ) 
msg = ‘Searching for {} flag{}: {}' 
plural = 's' if len(cc_list) != 1 else '' 
print(msg.format(len(cc_list), plural, cc_msg)) 
plural = 's' if actual_req != 1 else 
msg = '{} concurrent connection{} will be used. ' 


print(msg.format(actual_reg, plural) ) 


final _report(cc_list, counter, start_time): 

elapsed = time.time() - start_time 

print('-' * 20) 

msg = '{} flag{} downloaded. ' 

plural = 's' if counter[HTTPStatus.ok] != 1 else '' 

print(msg. format (counter[HTTPStatus.ok], plural)) 

if counter[HTTPStatus.not_found ]: 
print(counter[HTTPStatus.not_found], ‘not found.') 

if counter[HTTPStatus.error ]: 
plural = 's' if counter[HTTPStatus.error] != 1 else 
print('{} error{}.'.format(counter[HTTPStatus.error], plural)) 

print('Elapsed time: {:.2f}s'.format(elapsed) ) 


expand_cc_args(every_cc, all_cc, cc_args, limit): 
codes = set() 
A_Z = string.ascii_uppercase 
if every_cc: 
codes.update(at+b for a in AZ for b in AZ) 
elif all cc: 
with open(COUNTRY_CODES FILE) as fp: 
text = fp.read() 
codes.update(text.split()) 
else: 
for cc in (c.upper() for c in cc_args): 
if len(cc) == 1 and cc in A _Z: 
codes.update(cc+c for c in A_Z) 


def 


elif len(cc) == 2 and all(c in AZ for c in cc): 
codes.add(cc) 
else: 
msg = ‘each CC argument must be A to Z or AA to ZZ.' 
raise ValueError('*** Usage error: '+msg) 
return sorted(codes)[:limit] 


process _args(default_concur_req): 
server_options = ', '.join(sorted(SERVERS) ) 
parser = argparse.ArgumentParser( 
description='Download flags for country codes. 
‘Default: top 20 countries by population. ') 
parser.add_argument('cc', metavar='CC', nargs='*', 
help='country code or 1st letter (eg. B for BA...BZ)') 
parser.add_argument('-a', '--all', action='store_true’, 
help='get all available flags (AD to ZW)') 
parser.add_argument('-e', ‘--every', action='store_true’, 
help='get flags for every possible code (AA...ZZ)') 
parser.add_argument('-1', ‘--limit', metavar='N', type=int, 
help='limit to N first codes', default=sys.maxsize) 
parser.add_argument('-m', ‘--max_req', metavar="CONCURRENT', type=int, 
default=default_concur_regq, 
help='maximum concurrent requests (default={})' 
. format (default_concur_req) ) 
parser.add_argument('-s', ‘--server', metavar='"LABEL", 
default=DEFAULT_SERVER, 
help='Server to hit; one of {} (default={})' 
.format(server_options, DEFAULT _SERVER) ) 
parser.add_argument('-v', ‘--verbose', action='store_true', 
help='output detailed progress info') 
args = parser.parse_args() 
if args.max_req < 1: 
print('*** Usage error: --max_req CONCURRENT must be >= 1') 
parser.print_usage() 
sys.exit(1) 
if args.limit < 1: 
print('*** Usage error: --limit N must be >= 1') 
parser.print_usage() 
sys.exit(1) 
args.server = args.server.upper() 
if args.server not in SERVERS: 
print('*** Usage error: --server LABEL must be one of '， 
server_options) 
parser.print_usage() 
sys.exit(1) 
try: 


cc_list = expand_cc_args(args.every, args.all, args.cc, args.limit) 
except ValueError as exc: 

print(exc.args[@]) 

parser.print_usage() 

sys.exit(1) 
if not cc_list: 

cc_list = sorted(POP2@ CC) 
return args, cc_list 


def main(download_many, default concur req, max_concur_req): 
args, cc_list = process_args(default_concur_req) 
actual_req = min(args.max_req, max_concur_req, len(cc_list)) 
initial_report(cc_list, actual_req, args.server) 
base_url = SERVERS[args.server ] 
to = time.time() 
counter = download_many(cc_list, base_url, args.verbose, actual_req) 
assert sum(counter.values()) == len(cc_list), \ 
"some downloads are unaccounted for’ 
final _report(cc_list, counter, t@) 


flags2_sequential.py 脚本 〈 见 示例 A-11) 是 对 比 两 种 并 发 实现 的 基准 。 
flags2_threadpool.py 脚本 《〈 见 示例 17-14) 还 使 用 了 flags2 sequential.py 
脚本 中 的 get_flag 和 download_one 两 个 函数 。 


示例 A-11 flags2 sequential.py 


""" 下 载 多 个 国家 的 国旗 (包含 错误 处 理 代码 )》。 


依 序 下 载 版 
运行 示例 :: 


$ python3 flags2 sequential.py -s DELAY b 
DELAY site: http://localhost:8002/flags 
Searching for 26 flags: from BA to BZ 

1 concurrent connection will be used. 

17 flags downloaded. 

9 not found. 

Elapsed time: 13.36s 


import collections 


import requests 
import tqdm 


from flags2 common import main, save_flag, HTTPStatus, Result 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


# BEGIN FLAGS2 BASIC HTTP_FUNCTIONS 

def get_flag(base url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 


if resp.status_code != 200: 
resp.raise for_status() 
return resp.content 


def download one(cc, base_url, verbose=False): 
try: 
image = get flag(base url, cc) 
except requests.exceptions.HTTPError as exc: 
res = exc.response 


if res.status_code == 404: 
status = HTTPStatus.not_found 
msg = ‘not found 
else: 
raise 
else: 


save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: 
print(cc, msg) 


return Result(status, cc) 
# END FLAGS2 BASIC HTTP_FUNCTIONS 


# BEGIN FLAGS2 DOWNLOAD MANY SEQUENTIAL 
def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() 
cc_iter = sorted(cc_list) 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) 
for cc in cc_iter: 


try: 
res = download one(cc, base_url, verbose) 

except requests.exceptions.HTTPError as exc: 
error_msg = 'HTTP error {res.status_code} - {res.reason}' 
error msg = error_msg.format(res=exc.response) 

except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error' 

else: 
error_msg 
status = res.status 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
print('*** Error for {}: {}'.format(cc, error_msg) ) 


return counter 
# END FLAGS2 DOWNLOAD MANY SEQUENTIAL 


if _name == '_ main_': 
main(download_many, DEFAULT CONCUR REQ, MAX_CONCUR_REQ) 


AS 281982: 处 理 OSCON 日 程 表 的 脚本 
和 测试 


示例 A-12 是 schedulel.py 模块 (示例 19-9) 的 测试 脚本 ， 使 用 
py.test 库 和 测试 运行 程序 实现 。 


示例 A-12 test Schedule1.py 


import shelve 
import pytest 


import schedule1 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule.load_db(the_db) 
yield the_db 


def test_record_class(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db['speaker.3471' | 
assert speaker.name == ‘Anna Martelli Ravenscroft’ 


def test_event_record(db): 
event = db['event.33950' | 
assert event.name == 'There *Will* Be Bugs' 


def test_event_venue(db): 
event = db['event.33950' ] 
assert event.venue_serial == 1449 


19.1.5 节 分 四 部 分 列 出 了 schedule2.py 脚本 里 的 代码 ， 示 例 A-13 是 完整 
的 代码 清单 。 


示例 A-13 schedule2.py 


schedule2.py: it /JHOSCONHY Heard 


>>> import shelve 
>>> db = shelve.open(DB_ NAME) 
>>> if CONFERENCE not in db: load _db(db) 


# BEGIN SCHEDULE2_DEMO 


>>> DbRecord.set_db(db) 
>>> event = DbRecord.fetch('event.33950') 
>>> event 
<Event ‘There *Will* Be Bugs'> 
>>> event.venue 
<DbRecord serial='venue.1449'> 
>>> event.venue.name 
"Portland 251' 
>>> for spkr in event.speakers: 
print('{@.serial}: {@.name}' .format(spkr) ) 


speaker.3471: Anna Martelli Ravenscroft 
speaker.5199: Alex Martelli 


# END SCHEDULE2 DEMO 
>>> db.close() 


# BEGIN SCHEDULE2_RECORD 
import warnings 
import inspect 


import osconfeed 


DB NAME = ‘data/schedule2_db' 


CONFERENCE = ‘conference.115' 


class Record: 
def init__(self, **kwargs): 
self. dict .update(kwargs) 


def eq _ (self, other): 
if isinstance(other, Record): 
return self. dict == other. dict _ 
else: 
return NotImplemented 
# END SCHEDULE2 RECORD 


# BEGIN SCHEDULE2_DBRECORD 
class MissingDatabaseError(RuntimeError) : 
"""Raised when a database is required but was not set.""" 


class DbRecord(Record): 
__db = None 


@staticmethod 
def set_db(db): 
DbRecord.__db = db 


@staticmethod 
def get_db(): 
return DbRecord. db 


@classmethod 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ ident] 
except TypeError: 
if db is None: 
msg = "database not set; call '{}.set db(my db)'" 
raise MissingDatabaseError(msg.format(cls. name )) 
else: 
raise 


def _repr_ (self): 
if hasattr(self, 'serial'): 
cls name = self.__class_.__name_ 


return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super().__repr__() 
# END SCHEDULE2 DBRECORD 


# BEGIN SCHEDULE2_EVENT 
class Event(DbRecord): 


@property 
def venue(self): 
key = 'venue.{}'.format(self.venue_serial) 


return self. class .fetch(key) 


@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): 
spkr_serials = self. dict ['speakers'] 
fetch = self. class .fetch 
self. speaker objs = [fetch('speaker.{}'.format(key) ) 
for key in spkr_serials] 
return self. speaker_objs 


def _repr (self): 
if hasattr(self, 'name'): 
cls name = self. class . name _ 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super().__repr__() 
# END SCHEDULE2 EVENT 


# BEGIN SCHEDULE2_ LOAD 
def load_db(db): 
raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record type = collection[:-1] 
cls_name = record_type.capitalize() 
cls = globals().get(cls_name, DbRecord) 
if inspect.isclass(cls) and issubclass(cls, DbRecord): 
factory = cls 
else: 
factory = DbRecord 
for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) 
record[ 'serial'] = key 


db[key] = factory(**record) 
# END SCHEDULE2 LOAD 


示例 A-14 使 用 py. test 测试 示例 A-13. 


示例 A-14 test Schedule2.py 


import shelve 
import pytest 


import schedule2 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule. load_db(the_db) 
yield the_db 


def test_record_attr_access(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_record_repr(): 
rec = schedule.DbRecord(spam=99, eggs=12) 
assert 'DbRecord object at @x' in repr(rec) 
rec2 = schedule.DbRecord(serial=13) 
assert repr(rec2) == "<DbRecord serial=13>" 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db[ 'speaker.3471' | 
assert speaker.name == ‘Anna Martelli Ravenscroft 


def test_missing db_exception(): 
with pytest.raises(schedule.MissingDatabaseError) : 


def 


def 


def 


def 


def 


schedule.DbRecord.fetch('venue.1585') 


test_dbrecord(db): 
schedule.DbRecord.set_db(db) 

venue = schedule.DbRecord.fetch( 'venue.1585' ) 
assert venue.name == ‘Exhibit Hall B' 


test_event_record(db): 
event = db['event.33950' ] 
assert repr(event) == "<Event ‘There *Will* Be Bugs'>" 


test_event_venue(db): 
schedule.Event.set_db(db) 
event = db['event.33950' ] 


assert event.venue_serial == 1449 
assert event.venue == db['venue.1449' ] 
assert event.venue.name == ‘Portland 251' 


test_event_speakers(db): 
schedule.Event.set_db(db) 
event = db[ 'event.33950' ] 


assert len(event.speakers) == 2 
anna_and_alex = [db['speaker.3471'], db[ 'speaker.5199']] 
assert event.speakers == anna_and_alex 


test_event_no_speakers(db): 
schedule.Event.set_db(db) 
event = db[ 'event.36848' ] 
assert len(event.speakers) == 


Python 术语 表 
当然 ， 这 里 列 出 的 很 多 术语 不 是 Python 专用 的 ， 不 过 某 些 术语 的 定义 对 
Python 社区 有 特殊 的 意义 ， 


此 外 ， 也 可 以 参阅 官方 的 Python 词汇 表 
Chttps://docs.python.org/3/glossary.html) 。 
ABC《〈 编 程 语言 ) 


Leo Geurts, Lambert Meertens 和 Steven Pemberton 创造 的 一 门 编程 
语言 。20 世纪 80 年 代 ，Python 之 父 Guido van Rossum 是 实现 ABC 环境 
的 程序 员 。Python 的 一 些 特色 出 自 ABC， 例 如 使 用 缩 进 划分 块 、 内 置 元 
组 和 字典 、 元 组 拆 包 、for 循环 的 语义 ， 以 及 对 所 有 序列 类 型 的 统一 处 
HT INe 
BDFL 


Benevolent Dictator For Life 的 简称 ， 意 为 “仁慈 的 独裁 者 ”， 指 代 
Python 之 父 Guido van Rossum。 


BOM 


Byte Order Mark 的 简称 ， 意 为 “ 字 节 序 标记 ”， 指 可 能 出 现在 UTF- 
16 编码 文件 开头 的 字 节 序列 。BOM 是 U+FEFF 字符 ( 零 宽 不 换行 空 
格 ) ， 在 大 字 节 序 的 CPU 中 ， 编 码 成 b'\xfe\xff'; 在 小 字 节 序 的 
CPU 中 ， 编 码 成 b' \xff\xfe'。 因 为 Unicode 中 没有 U+FFFE 字符 ， 所 
以 这 些 字 节 的 作用 只 有 一 个 一 一 表示 编码 方式 使 用 的 字 节 序 。 虽 然 多 
余 ， 但 是 在 UTF-8 文件 中 可 能 会 找到 编码 成 b' \xef\xbb\xbf' 的 
BOM. 


CPython 


标准 的 Python fka, EH C 语言 实现 。 讨 论 不 同 实现 特有 的 行 
为 ， 以 及 多 个 可 用 的 Python 解释 器 (如 PyPy)〉 时 才 会 使 用 这 个 术语 。 


CRUD 


Create. Read. Update. Delete 的 首 字母 缩写 ， 这 是 存储 记录 的 应 
用 程序 中 的 四 种 基本 操作 。 


doctest 


一 个 模块 ， 其 中 的 函数 能 解析 并 运行 Python 模块 或 纯 文 本 文件 的 文 
档 字 符 串 中 内 符 的 示例 。 也 可 以 在 命令 行 中 使 用 ， 如 下 所 示 : 


python -m doctest 
module with_tests.py 


DRY 


Don't Repeat Yourself (AAA RHR) 的 缩写 ， 一 种 软件 工程 原 
则 ， 意 思 是 :“ 系 统 中 的 每 一 项 知识 都 必须 具有 单一 、 无 上 收 义 、 权 威 的 
表示 。” 首 先 由 Andy Hunt 与 Dave Thomas 的 《程序 员 修 炼 之 道 : 从 小 工 
到 专家 》 一 书 提出 。 


dunder 


首尾 有 两 条 下 划 线 的 特殊 方法 和 属性 的 简洁 读 法 《〈 即 把 len 


读 成 “dunder len”) 。 


dunder 方法 
参见 dunder 和 特殊 方法 词 条 。 


EAFP 


“it's easier to ask forgiveness than permission”〈 取 得 原谅 比 获得 许可 
容易 ) 的 首 字 母 缩写 。 人 们 认为 这 句 话 是 计算 机 先驱 Grace Hopper 说 
的 ，Python 程序 员 使 用 这 个 绚 写 指 代 一 种 动态 编程 方式 ， 例 如 访问 属性 
前 不 测试 有 没有 属性 ， 如 果 没 有 束 捕 获 异 常 。 hasattr 函数 的 文档 字 
符 串 是 这 样 描述 它 的 工作 方式 的 :“ 调 用 getattr(object, name), 
然后 捕获 AttributeError 异常 。” 


genexp 
generator expression〈 生 成 器 表达 式 ) 的 简称 。 
GoF 书 
指 代 《设计 模式 : 可 复 用 面 问 对 象 软件 的 基础 》 一 书 ， 作 者 是 四 个 
人 人， 被 称 为 “四 人 组 ”(Gang of Four, GoF) ， 包 括 Erich Gamma, 
Richard Helm, Ralph Johnson 和 John Vlissides. 


KISS 原则 


KISS 是 “Keep It Simple, Stupid” 的 首 字 母 缩写 。 这 个 原则 要 求 尽量 
寻找 最 简单 的 方案 ， 尺 量 减 少 可 变 部 分 。 这 个 警句 是 Kelly Johnson 首创 
I. Kelly 是 一 位 多 才 多 艺 的 航空 工程 师 ， 在 真实 存在 的 51 区 工作 ， 设 
计 出 了 20 世纪 最 先进 的 几 架 航天 飞机 。 


listcomp 
list comprehension〈 列 表 推 导 ) 的 简称 。 
ORM 
Object-Relational Mapper OW RA AMA aS) 的 缩写 ， 通 过 这 种 
API 可 以 使 用 Python 类 和 对 象 访问 数据 库 中 的 表 和 记录 ， 而 且 调 用 方法 


可 以 执行 数据 库 操 作 。SQLAlchemy 是 流行 的 独立 Python ORM, Django 
和 Web2py 自 带 了 ORM. 


PyPI 
Python 包 索 引 〈https:/pypi.python.org/) ， 里 面 有 超过 60 000 个 包 

可 用 。 也 叫 奶 酷 店 《参见 奶 酷 店 词 条 ) 。 为 了 防止 与 PyPy 混 请 ，PyPI 

应 该 读 作 “pie-P-eye”。 

PyPy 


Python 编程 语言 的 男 一 种 实现 ， 使 用 一 个 工具 链 把 部 分 Python 编译 
成 机 器 码 ， 因 此 解释 器 的 源码 其 实 是 使 用 Python 编写 的 。PyPy 还 提供 


了 JIT， 即 时 把 用 户 的 程序 编译 成 机 器 人 码 一 一 与 Java VM 的 作用 相同 。 
根据 PyPy 公布 的 基准 测试 (http://speed.pypy.org/) ， 从 2014 年 11 月 
起 ，PyPy 平均 比 CPython 6.8 倍 。 为 了 防止 与 PyPI 混淆， PyPy 应 该 
读 作 “pie-pie”。 
Pythonic 

用 于 赞扬 符合 Python 风格 的 代码 ， 即 充分 利用 Python 语言 的 特 
性 ， 写 出 简洁 明了 、 可 读 性 强 ， 通 常 运行 速度 也 快 的 代码 。 还 指 API 符 
Python 高 手 的 编程 方式 。 参 见 惯 用 句法 词 条 。 
Python 之 禅 


从 Python 2.2 起 ， 在 Python 控制 台中 输入 import this 后 看 到 的 


REPL 

read-eval-print loop 〈 读 取 一 求 值 一 输出 循环 ) 的 简称 ， 一 种 交互 式 
控制 台 ， 如 标准 的 python 或 非 主流 的 ipython 和 bpython， 以 及 
Python Anywhere. 


YAGNI 


You Ain't Gonna Need It (你 不 需要 这 个 ) 的 首 字 母 缩 号， 这 个 口号 
的 意思 是 ， 根 据 对 未 来 需求 的 预测 ， 不 要 实现 非 立 即 需要 的 功能 。 


绑 定 方法 (bound method) 


通过 实例 访问 的 方法 会 绑 定 到 那个 实例 上 。 方 法 其 实 是 摘 述 符 ， 访 
问 方法 时 ， 会 返回 一 个 包装 自身 的 对 象 ， 把 方法 绑 定 到 实例 上 。 那 个 对 
象 就 是 绑 定 方法 。 调 用 绑 定 方法 时 ， 可 以 不 传 入 self 的 值 。 例 如 ， 像 
my_method = my_obj.method 这 样 赋值 之 后 ， 可 以 通过 
my_method() 调用 绑 定 方法 。 请 与 非 绑 定 方 法 相 比 较 。 


编码 解码 器 〈codec) 
(编码 器 / 解码 器 ) 提供 编码 和 解码 函数 的 模块 ， 通 和 在 str 和 


bytes 之 间 转 换 ， 不 过 Python 也 提供 了 在 bytes Al bytes, We str 
和 str 之 间 转 换 的 编码 解码 器 。 


变 值 方 法 (mutator) 

参见 存 取 方 法 词 条 。 
别名 (aliasing) 

为 同一 个 对 象 指定 两 个 或 多 个 名 称 。 例 如 , 在 a = [];b=a 
中 ，a 和 b 是 别名 ， 指 向 同 一 个 列表 对 象 。 对 于 把 对 象 引 用 存储 在 变量 
中 的 语言 来 说 ， 别 名 无 处 不 在 。 为 了 避免 混淆 ， 要 握 弃 这 种 想法 .变量 
是 存储 对 象 的 盒子 (毕竟 同一 个 对 象 不 可 能 放 在 两 个 盒子 里 )。 我 们 要 
把 变量 看 做 对 象 的 标注 (一 个 对 象 可 以 有 多 个 标注 )。 
并 行 赋值 (parallel assignment) 


使 用 类 似 a，b = [c, d] NAIA, ERRIRE soz 
值 给 多 个 变量 ， 也 叫 解 构 赋 值 。 这 是 元 组 拆 包 的 常见 用 途 。 


抽象 基 类 (abstract base class, ABC) 
无 法 实例 化 ， 只 能 扩展 的 类 。Python 通过 ABC 实现 接口 。 除 了 继 


Ik ABC 之 外 ， 类 还 可 以 注册 成 为 ABC 的 虚拟 子 类 ， 声 明 自 己 实现 了 接 
Pls 


初始 化 方法 (initializer) 

_ init_ 方法 更 贴切 的 名 称 〈 取 代 构 造 方法 ) 。__init__ 方法 
的 任务 是 初始 化 通过 self 参数 传 入 的 实例 。 实 例 其 实 是 由 __new__ 方 
法 构建 的 。 参 见 构 造 方法 词 条 。 
储存 属性 (storage attribute ) 


EKP PARTE, FS ete a SEA a ALE 


管 属 性 词 条 。 


存 取 方法 Caccessor) 


用 于 存 取 单个 数据 属性 的 方法 。 有 些 作 者 把 存 取 方 法 当 作 通用 术语 
使 用 ， 包 括 读 值 方法 和 设 值 方法 ， 另 一 些 作者 则 用 存 取 方 法 指 代 读 值 方 
法 ， 而 用 变 值 方法 指 代 设 值 方法 。 
代码 异味 (code smell) 

一 种 代码 形式 ， 表 明 程 序 的 设计 可 能 有 问题 。 例 如 ， 过 度 使 用 
isinstance 检查 具体 的 类 是 一 种 代码 异味 ， 因 为 这 样 会 导致 程序 以 后 
难以 扩展 ， 无 法 处 理 新 类 型 。 

单 例 (singleton) 

一 个 类 唯一 存在 的 实例 一 一 这 通 弟 不 是 巧合 ， 而 是 故意 为 之 ， 防 止 
类 创建 多 个 实例 。 有 一 种 设计 模式 就 叫 单 例 模 式 ， 指 明 如 何 编写 这 样 的 
X, Æ Python 中 ，None 对 象 是 单 例 。 
导入 时 (import time ) 

Python 解释 器 加 载 模块 ， 从 上 到 下 计算 ， 把 里 面 的 代码 编译 成 字 节 
码 之 后 ， 开 始 执行 模块 的 那 一 刻 。 类 和 函数 在 此 时 定义 ， 变 成 真实 存在 
的 对 象 。 装 饰 器 也 在 此 时 执行 。 


TAs (〈iterator) 


实现 了 无 参数 方法 _next__ 的 对 象 ， 这 个 方法 返回 级 数 里 的 下 一 
个 元 素 ， 如 果 没 有 元 素 了 就 抛 出 StopIteration 异常 。 在 Python 中 ， 
ERAL SCM S iter 方法 ， 因 此 迭代 器 也 是 可 达 代 的 对 象 。 根 据 
最 初 的 设计 模式 ， 经 典 达 代 器 返回 集合 里 的 元 素 。 和 生成 器 也 是 达 代 
器 ， 不 过 更 灵活 。 参 见 生成 器 词 条 。 
惰性 求 值 (lazy) 


Fit AY ERY RIA iE GR TE Python 中 ， 生 成 器 会 惰性 求 值 。 
请 与 及 早 求 值 相 比 较 。 


二 进 制 序列 (binary sequence ) 
一 个 通用 术语 ， 表 示 元 素 是 二 进 制 数 据 的 序列 类 型 。 内 置 的 二 进 制 


序列 类 型 有 byte. bytearray 和 memoryview. 
Z KAZ (generic function) 


以 不 同 的 方式 为 不 同类 型 的 对 象 实现 相同 操作 的 一 组 函数 。 从 
Python 3.4 起 ， 创 建 泛 函数 的 标准 方式 是 使 用 
functools.singledispatch 装饰 器 。 在 其 他 语言 中 ， 这 叫 多 分 派 方 
Ws 
非 绑 定 方法 (unbound method) 

直接 通过 类 访问 的 实例 方法 没有 绑 定 到 特定 的 实例 上 ， 因 此 把 这 种 
方法 称 为 “ 非 绑 定 方法 "”。 知 想 成 功 调用 非 绑 定 方法 ， 必 须 显 式 传 入 类 的 


实例 作为 第 一 个 参数 。 那 个 实例 会 赋值 给 方法 的 self 参数 。 参 见 绑 定 
方法 词 条 。 


非 履 盖 型 描述 符 (nonoverriding descriptor) 


未 实现 _set_ “方法 的 描述 符 ， 不 干涉 托管 实例 中 托管 属性 的 设 
置 。 因 此 ， 托 管 实 例 中 的 同名 属性 会 谴 瘟 实 例 中 的 描述 符 。 也 叫 非 数据 
描述 符 或 遮盖 型 描述 符 。 请 与 敢 盖 型 描述 符 相 比较 。 


敌 辣 型 描述 符 (overriding descriptor) 

实现 了 set_ ”方法 的 描述 符 ， 设 置 托 管 实 例 中 的 托管 属性 时 会 
遭 到 拦截 并 履 盖 相关 操作 。 也 叫 数 据 描述 符 或 强制 描述 符 。 请 与 非 履 盖 
型 描述 符 相 比较 。 
高 阶 函 数 (higher-order function) 


以 其 他 函数 为 参数 的 函数 ， 例 如 sorted. map 和 filter; 或 者 ， 
返回 值 为 函数 的 函数 ， 例 如 Python 中 的 装饰 器 。 


构造 方法 (constructor) 
KAJ init 实例 方法 称 为 类 的 构造 方法 ， 因 为 这 个 方法 的 语义 


类 似 于 Java 中 的 构造 方法 。 然 而 ， 这 样 称呼 并 不 规范 ，_ init_ ”更 应 
该 称 为 初始 化 方法 ， 因 为 它 并 不 会 构建 实例 ， 而 是 把 实例 传 给 self 参 


lo Python 在 ”init ”方法 之 前 调用 的 new_ _ 类 方法 更 合乎 构造 
方法 这 个 术语 ，_new_ ”方法 才 会 创建 实例 并 将 其 返回 。 参 见 初始 化 
方法 词 条 。 


惯用 句法 (idiom) 

根据 普林斯顿 大 学 WordNet 字典 的 定义 ， 惯 用 句法 指 “ 说 母语 的 人 
说 话 的 方式 ”。 
函数 (function) 

严格 来 说 ， 是 指 def 块 或 lambda 表达 式 计 算得 到 的 对 象 。 通 常 ， 
函数 这 个 词 用 于 表示 任何 可 调用 的 对 象 ， 例 如 方法 ， 有 时 甚至 表示 类 。 
官方 文档 中 的 内 置 函 数列 表 


(http://docs.python.org/library/functions.html) 列 出 了 几 个 内 置 的 类 ， 例 
如 dict、range 和 str。 男 见 可 调用 的 对 象 词 条 。 


猴子 补丁 (monkey patching) 


在 运行 时 动态 修改 模块 、 类 或 函数 ， 通 常 是 添加 功能 或 修正 缺陷 。 
猴子 补丁 在 内 存 中 发 挥 作用 ， 不 会 修改 源码 ， 因 此 只 对 当前 运行 的 程序 
实例 有 效 。 因 为 猴子 补丁 破坏 了 封装 ， 而 且 容 易 导 人 臻 程序 与 补丁 代码 的 
"> 所 以 被 视 为 临时 的 变通 方案 ， 不 是 集成 代码 的 推荐 
TINS 


混入 方法 (mixin method) 


抽象 基 类 或 混入 类 中 方法 的 具体 实现 。 


混入 类 (mixin class) 


用 于 随 着 多 重 继承 类 树 中 的 一 个 或 多 个 类 一 起 扩展 的 类 。 混 入 类 缀 
不 能 实例 化 ， 它 的 具体 子 类 也 应 该 是 其 他 非 混 和 类 的 子 类 。 


活性 (iveness) 


异步 系统 、 线 程 系统 或 分 布 式 系统 在 “期 符 的 事情 终于 发 生 ”( 即 虽 
然 期 待 的 计算 不 会 立即 发 生 ， 但 最 终 会 完成 ) 时 展现 出 来 的 特性 叫 活 


性 。 如 果 系 统 死 锁 了 ， 活 性 也 就 没有 了 。 
及 早 求 值 (eager) 


te ISAT RR ENS eS TUR FE Python 中 ， 列 表 推 导 会 及 
早 求 值 。 请 与 惰性 求 值 相 比较 。 


集合 (collection) 


泛 指 由 元 素 组 成 ， 可 以 单独 访问 各 个 元 素 的 数据 结构 。 有 些 集 合 可 
以 包含 任意 类 型 的 对 象 ( 参 见 容 器 词 条 ) ， 有 些 则 只 能 包含 一 种 原子 类 
型 的 对 象 ( 参 见 平 坦 序列 词 条 ) 。1ist 和 bytes 都 是 集合 ， 只 不 过 
list 是 容器 ， 而 bytes 是 平坦 序列 。 


假 值 (falsy) 


只 要 bool(x) 返回 False, x 就 是 假 值 。 需 要 布尔 值 时 ，Python 会 
隐 式 使 用 bool 计算 对 象 ， 例 如 控制 if 和 while 循环 的 表达 式 。 与 此 
相对 的 是 真 值 Ctruthy) 。 


尽早 失败 (fail-fast) 


一 种 系统 设计 方式 ， 建 议 应 该 尽早 报告 错误 。Python 比 其 他 大 多 数 
动态 编程 语言 更 遵守 这 一 原则 。 例 如 ，Python 中 没有 “未 定义 ”的 值 : 在 
初始 化 之 前 引用 变量 会 报错 ;如 果 k 不 存在 ，my_dict[k] 会 抛 出 异常 

(JavaScript WAZA) 。 还 有 一 例 : 在 Python 中 通过 元 组 拆 包 做 并 行 赋 
值 ， 必 须 显 式 处 理 元 组 的 每 一 个 元 素 才 行 ， 而 在 Ruby F, WR = 两 边 
eee 右边 未 用 到 的 元 素 会 被 忽略 ， 或 者 把 nil 赋 给 左边 

余 的 变量 。 


可 迭代 的 〈iterable ) 


使 用 内 置 的 iter 函数 可 以 从 中 获得 迭代 器 的 对 象 。 可 迭代 的 对 象 
为 for 循环 、 列 表 推 导 和 元 组 拆 包 提供 元 素 。 如 果 对 象 的 ”iter Ù 
法 能 返回 迭代 器 ， 这 就 是 可 迭代 的 对 象 。 序 列 都 是 可 迭代 的 对 象 ， 此 
外 ， 实 现 ”getitem ”方法 的 对 象 也 是 可 迭代 的 对 象 。 


可 迭代 对 象 的 拆 包 〈iterable unpacking) 


元 组 拆 包 更 现代 、 更 精确 的 同义词 。 另 见 并 行 赋 值 词 条 。 
可 散 列 的 〈hashable ) 


在 散 列 值 永 不 改变 ， 而 且 如 果 a == b， 那 么 hash(a) == 
hash(b) 也 是 True 的 情况 下 ， 如 果 对 象 既 有 __hash _ 方法 ， 也 有 
eq 方法， 那么 这 样 的 对 象 称 为 可 散 列 的 对 象 。 在 内 置 的 类 型 中 ， 
大 多 数 不 可 变 的 类 型 都 是 可 散 列 的 ， 但 是 ， 仪 当 元 组 的 每 一 个 元 素 都 是 
可 散 列 的 时 ， 元 组 才 是 可 散 列 的 。 


可 调用 的 对 象 〈callable object) 


可 以 使 用 调用 运算 符 () 调用 ， 能 返回 结果 或 执行 某 项 操作 的 对 
A. FE Python 中 ， 可 调用 的 对 象 有 七 种 :用户 定 义 的 函数 、 内 置 的 函 
数 、 内 置 的 方法 、 实 例 方法 、 生 成 器 函数 、 类 ， 还 有 实现 特殊 方法 
_ call 的 类 的 实例 。 


类 (class) 


定义 新 类 型 的 程序 结构 ， 里 面 有 效 据 属性 ， 以 及 用 于 操作 数据 属性 
的 方法 。 参 见 类 型 词 条 。 


类 型 (type) 


程序 中 的 各 种 数据 ， 限 定 可 取 的 值 和 可 对 数据 做 的 操作 。 有 些 
Python 类 型 近似 于 机 器 数据 类 型 (例如 float 和 bytes) ， 而 另 一 些 则 
是 机 器 数据 类 型 的 扩展 (例如 ，int A CPU 字 长 的 限制 ，str 包含 多 
字 节 Unicode 数据 码 位 ) 和 特别 高 层 的 抽象 〈 例 如 dict、deque， 等 
等 ) 。 类 型 分 为 两 类 : 用 户 定 义 的 类 型 和 解释 器 内 置 的 类 型 。 在 Python 
2.2 统一 类 型 和 类 之 前 ， 类 型 和 类 是 不 同 的 实体 ， 用 户 定义 的 类 不 能 扩 
展 内 置 的 类 型 。 而 在 那 之 后 ， 内 置 的 类 型 和 新 式 类 兼容 了 ， 类 是 type 
的 实例 。 在 Python 3 中 ， 所 有 类 都 是 新 式 类 。 参 见 类 和 元 类 词 条 。 


列表 推导 Aist comprehension) 
放 在 方 括号 里 的 表达 式 ， 使 用 关键 字 for 和 in， 通 过 处 理 和 过 滤 


一 个 或 多 个 可 迭代 对 象 里 的 元 际 构 建 列 表 。 列 表 推 导 会 及 早 求 值 。 参 见 
及 早 求 值 词 条 。 


人 码 位 (code point) 


介 于 0~0x10FFFF 之 间 的 整数 ， 用 于 标识 Unicode 字符 数据 库 中 的 
FIF BE Unicode 7.0， 所 有 码 位 中 只 有 不 到 3% 指定 了 字符 。 在 
Python 文档 中 ， 这 个 术语 可 能 拼 成 一 个 词 ， 也 可 能 拼 成 两 个 词 。 例 如 ， 
在 Python 标准 库 参 考 手 册 的 “2. Built-in Functions” 一 章 

(http://docs.python.org/library/functions.html〉 中 ， 说 char 函数 的 参数 是 
一 个 整数 “ 码 位 ”(codepoint) ， 却 说 作用 相反 的 ord 函数 返回 一 
个 “Unicode 码 位 ”(Unicode code point) 。 


描述 符 (descriptor) 

一 个 类 , 实现 get. set 和 delete _ 特殊 方法 中 的 一 
个 或 多 个 ， 其 实例 作为 另 一 个 类 托管 类 ) 的 类 属性 。 描 述 符 管理 托 
管 类 中 托管 属性 的 存 取 和 删除 ， 数 据 通 常 存 储 在 托管 实例 中 。 

名 称 改写 (name mangling) 


Python 解释 器 在 运行 时 上 自动 把 私有 属性 x 重 命名 为 
_MyClass_ x. 


魔术 方法 Cmagic method) 
同 特殊 方法 。 
Yig (Cheese Shop) 
Python 包 索 引 (Python Package Index, 
PyPI, https://pypi.python.org/pypi) ERZAR, U“ EWER ARA I Be 
默 短 剧 《 奶 酷 店 》 命 名 。 虽 然 是 奶 酷 店 ， 但 是 店 里 却 什 么 奶酪 都 没有 。 


写作 本 书 时 ，https://cheeseshop.python.org 这 个 别名 链接 还 有 效 。 人 参见 
PyPI 词 条 。 


A AK% (built-in function, BIF) 


随 Python 解释 器 一 起 提供 的 函数 ， 使 用 底层 实现 语言 〈 也 就 是 说 ， 
CPython 用 C 语言 ，Jython 用 Java， 以 此 类 推 ) 编写 。 这 个 术语 通常 指 
代 无 需 导 入 就 能 使 用 的 函数 ， 参 见 Python 标准 库 参 考 手 册 中 的 “2. Built- 


in Functions” — = Chttp://docs.python.org/library/functions.html) . AZ, 
内 置 的 模块 〈 如 sys. math, re“) 也 包含 内 置 函数 。 


平坦 序列 (flat sequence ) 


这 种 序列 类 型 存储 的 是 元 又 的 值 本 导 ， 而 不 是 其 他 对 象 的 引用 。 内 
置 的 类 型 中 ， str、bytes、bytearray、memoryview 和 
array.array 是 平坦 序列 ; mi list. tuple 和 collections.deque 
是 容器 序列 。 参 见 容器 词 条 。 


浅 复 制 (shallow copy) 


一 种 对 象 副 本 ， 引 用 源 对 象 的 全 部 属性 对 象 。 请 与 深 复制 相 比 较 。 


另 见 别名 词 条 。 
强 引 用 (strong reference ) 

让 对 象 始终 存在 于 Python 中 的 引用 。 请 与 弱 引 用 相 比 较 。 
切片 (slicing) 

使 用 切片 表示 法 生成 序列 的 子 集 ， 例 如 my_sequence[2:6]。 切 斤 
经 常 复制 数据 ， 生 成 新 对 象 ; 然而 ，my_sequence[ : ] 是 对 整个 序列 的 
eZ till, AD, memoryview 对 象 的 切片 虽 是 一 个 memoryview 新 对 
象 ， 但 会 与 源 对 象 共 享 数据 。 


容器 (container) 


包含 其 他 对 象 引用 的 对 象 。Python 中 的 大 多 数 集合 类 型 都 是 容器 ， 
不 过 有 些 不 是 。 请 与 平坦 序列 相 比 较 ， 这 种 序列 是 集合 ， 但 不 是 容器 。 


弱 引 用 (weak reference ) 


一 种 特殊 的 对 象 引 用 方式 ， 不 计 入 指示 对 象 的 引用 计数 。 弱 引用 使 
用 weakref 模块 里 的 某 个 函数 和 数据 结构 创建 。 


上 下 文 管理 器 (context manager) 


实现 了 _enter 和 ”exit ”特殊 方 法 的 对 象 ， 在 with 块 中 使 
用 。 


Ie JEG K Csnake_case ) 


标识 符 的 一 种 命名 约定 ， 使 用 下 划 线 O 连接 单词 ， 例 如 
run_until_complete. PEP-8 把 这 种 风格 称 为 “使 用 下 划 线 分 隔 的 小 写 
单词 ?， 建 议 用 于 命名 函数 、 方 法 、 参 数 和 变量 。PEP-8 建议 包 名 直接 
把 各 个 单词 拼接 起 来 ， 不 使 用 分 隔 符 。Python 标准 库 中 有 很 多 使 用 蛇 底 
式 命 名 的 标识 人 符 ， 不 过 也 有 单词 之 间 没 有 分 隔 的 标识 符 〈 例 
如 ,，getattr、classmethod、isinstance、str.endswith， 等 
等 ) 。 参 见 驼 峰 式 词 条 。 


深 复制 (deep copy) 

复制 对 象 时 把 对 象 的 所 有 属性 一 起 复制 。 请 与 浅 复制 相 比较 。 
生成 器 〈generator) 
Gece. ERR ELAN SUBCOUAY EADIE Dp, DIE RICOY 


列 ， 在 集合 中 绝对 放 不 下 。 这 个 术语 除了 表示 调用 生成 器 函数 得 到 的 对 
象 之 外 ， 有 时 还 表示 生成 器 函数 。 


生成 器 表达 式 (generator expression) 


放 在 括号 里 的 表达 式 ， 句 法 与 列表 推导 一 样 ， 不 过 返回 的 不 是 列 
和 U 生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 。 参 
见 惰性 求 值 词 条 


生成 器 函数 (generator function) 
een yield 关键 字 的 函数 。 调 用 生成 器 函数 得 到 的 是 生成 


J 


XZ (argument) 


Dal AY RAE A KARIEN. FR Python 习惯 的 说 法 ， 实 参 和 


形 参 几乎 等 价 。 关 于 二 者 的 区 别 以 及 各 目的 用 途 ， 参 见 形 参 词 条 。 
视图 (view) 


在 Python 3 中， 视图 是 一 种 特殊 的 数据 结构 ， 由 字典 的 
.keys()、.values() 和 .items() 方法 返回 ， 作 用 是 在 不 重复 数据 的 
前 提 下 ， 提 供 字 典 的 键 和 值 的 动态 视图 。 在 Python 2 中 ， 那 些 方法 返回 
的 是 列表 。 字 典 视 图 都 是 可 迭代 的 对 象 ， 支 持 in 运算 符 。 此 外 ， 如 果 
视图 引用 的 元 素 都 是 可 散 列 的 对 象 ， 那 么 视图 还 实现 了 
collections.abc.Set 接口 。.keys() 方法 返回 的 视图 都 是 这 样 ， 对 
.items() 方法 返回 的 视图 来 说 ， 如 果 其 中 的 值 都 是 可 散 列 的 对 象 ， 那 
么 也 是 如 此 。 


视 为 有 害 (considered harmful) 


Edsger Dijkstra 写 过 一 封 题 为 “Go To Statement Considered Harmful” H 
信函 ， 这 为 批评 计算 机 科学 技术 的 文章 提供 了 一 种 标题 格式 。 维 基 百 科 
中 的 “Considered harmful” — 3 

Chttp://en.wikipedia.org/wiki/Considered harmful) 列 出 了 很 多 这 种 文 
章 ， 包 括 Eric A. Meyer 写 的 “Considered Harmful Essays Considered 
Harmful” Chttp://meyerweb.com/eric/comment/chech.html) 。 


属性 (attribute ) 


在 Python 中 ， 方 法 和 数据 属性 〈 即 Java 术语 中 的 “字段 ") 都 是 属 
性 。 方 法 也 是 属性 ， 只 不 过 恰好 是 可 调用 的 对 象 ( 通 党 是 函数 ， 但 也 不 
一 定 ) 。 


特殊 方法 (special method) 


名 称 特殊 的 方法 ， 首 尾 各 有 两 条 下 划 线 ,例如 __getitem_。 
Python 中 的 特殊 方法 几乎 都 在 Python 语言 参考 手册 中 的 “3. Data 
model” 一 章 (https://docs.python.org/3/reference/datamodel.html〉 做 了 说 
明 ， 不 过 在 特定 上 下 文中 使 用 的 个 别 特殊 方法 在 文档 的 其 他 部 分 里 说 
HH. PG, BRINE missing ”方法 在 Python 标准 库 文 档 的 “4.10. 
Mapping Types” “i 

Chttps://docs.python.org/3/library/stdtypes.html#mapping-types-dict) 提 
到 。 


统一 访问 原则 〈uniform access principle ) 


Eiffel 语言 之 父 Bertrand Meyer 写 道 ;“ 不 管 服务 是 由 存储 还 是 计算 
实现 的 ， 一 个 模块 提供 的 所 有 服务 都 应 该 通过 统一 的 方式 使 用 。** 在 
Python 中 ， 可 以 使 用 特性 和 描述 符 实 现 统一 访问 原则 。 由 于 没有 new 运 
算 符 ， 函 数 调用 和 对 象 实例 化 看 起 来 相似 ， 这 也 体现 了 这 一 原则 : 调用 
方 无 需 知 道 被 调用 的 对 象 是 类 、 了 画 数 ， 还 是 其 他 可 调用 的 对 象 。 
托管 类 (managed class) 

使 用 摘 述 符 对 象 管理 类 中 某 个 属性 的 类 。 参 见 描述 符 词 条 。 
托管 实例 (managed instance ) 

托管 类 的 实例 。 参 见 托管 属性 和 描述 符 词 条 。 
托管 属性 (managed attribute ) 

由 描述 符 对 象 管 理 的 公开 属性 。 虽 然 托管 属性 在 托管 类 中 定义 ， 


但 是 作用 相当 于 实例 属性 〈 即 各 个 实例 通常 有 各 目的 值 ， 存 储 在 储存 属 
性 中 ) 。 参 见 描述 符 词 条 。 


驼峰 式 (CamelCase) 


标识 符 的 一 种 命名 约定 ， 单 词 的 首 字 母 大 写 ， 然 后 连接 起 来 〈 例 如 
Connection RefusedError) 。PEP-8 建议 类 名 使 用 驼峰 式 ， 但 是 
Python 标准 库 没有 如 守 这 个 建议 。 参 见 蛇 底 式 词 条 。 


文档 字符 串 (docstring) 

documentation string 的 人 简称。 如果 模块 、 类 或 函数 的 第 一 个 语句 是 
字符 串 字 面 量 ， 那 个 字符 串 会 当 作 所 在 对 象 的 文档 字符 串 ， 解 释 器 把 
那个 字符 串 存储 在 对 象 的 _ doc _ 属性 中 。 男 见 doctest 词 条 。 


FEE (wart) 


指 Python 语言 的 不 足 。Andrew Kuchling 发 表 过 一 篇 著名 的 文章 
一 一 Python warts”, C RAIER RUA, {RAE Wit Python 3 的 过 程 中 受 


此 文 影响 ， 决 定 不 向 后 兼容 ， 否 则 无 法 修正 大 多 数 缺 陷 。Kuchling 提 到 
的 多 数 问题 在 Python 3 中 修正 了 。 


像 文 件 的 对 象 Cfile-like object) 


官方 文档 使 用 的 一 个 非 正 式 称呼 ， 指 代 实 现 了 文件 协议 的 对 象 ， 有 
read, write 和 close 等 方法 。 第 见 的 变 体 有 : 逐 行 读 写 ， 包 含 编码 
字符 串 的 纯 文本 文件 ， 作 为 保存 在 内 存 中 的 纯 文本 文件 的 StringI0 实 
Bil; 包含 未 编码 的 字 节 的 二 进 制 文件 。 最 后 一 种 可 能 有 绥 冲 ， 也 可 能 没 
有 缓冲。 从 Python 2.6 起 ， 这 些 标准 文件 类 型 的 抽象 基 类 在 io 模块 
His 


像 字 节 的 对 象 〈bytes-like object) 


泛 指 字 节 序 列 。 最 第 见 的 像 字 节 的 类 型 有 bytes, bytearray 和 
memoryview; 不 过 ， 文 持 低层 CPython 缓冲 协议 的 对 象 ， 如 果 元 素 是 
单个 字 节 ， 那 么 也 属于 此 类 。 


协 程 Ccoroutine ) 


用 于 并 发 编程 的 生成 器 ， 从 调度 程序 ， 或 者 通过 
coro.send(value) 方法 从 事件 循环 中 接收 值 。 这 个 术语 可 以 表示 通过 
调用 生成 器 函数 获得 的 生成 器 函数 或 生成 器 对 象 。 参 见 生成 器 词 条 。 


JEZ (parameter) 


声明 函数 时 指定 的 零 个 或 多 个 “形式 参数 "， 这 些 是 未 绑 定 的 局 部 变 
量 。 调 用 函数 时 ， 传 入 的 实 参 (“实际 参数 ”) 会 绑 定 给 这 些 变 量 。 在 本 
书 中 ， 我 尽量 使 用 实 参 指 代 传 给 函数 的 实际 参数 ， 使 用 形 参 指 代 声 明 函 
数 时 使 用 的 形式 参数 。 然 而 ， 并 不 一 定 会 始终 这 样 做 ， 因 为 Python 文档 
和 API 经 常 混用 形 参 和 实 参 。 参 见 实 参 词 条 。 


虚拟 子 类 (virtual subclass ) 


不 继承 自 超 类 ， 而 是 使 用 
TheSuperClass.register(TheSubClass) 注册 的 类 。 参 见 
abc.ABCMeta.register 方法 的 文档 

Chttps://docs.python.org/3/library/abc.html#abc.ABCMeta.register) 。 


序列 (sequence) 


泛 指 长 度 〈 例 如 ，len(s)) 固定 ， 可 以 使 用 从 零 开 始 的 整数 索引 
《例如 s[8]) 获取 元 素 的 数据 结构 。Python 出 现 伊始 ， 序 列 这 个 词 束 
存在 了 ， 不 过 直到 Python 2.6 才 由 collections.abc.Sequence 确定 
为 一 个 抽象 类 。 


序列 化 (serialization) 

把 对 象 在 内 存 中 的 结构 转换 成 便于 存储 或 传输 的 二 进 制 或 文本 格 
式 ， 而 且 以 后 可 以 在 同一 个 系统 或 不 同 的 系统 中 重建 对 象 的 副 
A. pickle 模块 能 把 任何 Python 对 象 序列 化 成 二 进 制 格 式 。 

HY 28 AY (duck typing) 

多 态 的 一 种 形式 ， 在 这 种 形式 中 ， 不 管 对 象 属于 哪个 类 ， 也 不 管 声 
明 的 具体 接口 是 什么 ， 只 要 对 象 实现 了 相应 的 方法 ， 函 数 束 可 以 在 对 象 
上 执行 操作 。 

一 等 函数 (first-class function) 

在 语言 中 属于 一 等 对 象 的 函数 〈 即 能 在 运行 时 创建 ， 赋 值 给 变量 ， 
2 以 及 作为 另 一 个 函数 的 返回 值 ) 。Python 中 的 函数 都 是 
一 等 函数 。 


引用 计数 Crefcount ) 


CPython 内 部 对 各 个 对 象 的 引用 计数 ， 用 于 确定 垃圾 回收 程序 何 时 
销毁 对 象 。 
用 户 定义 的 (user-defined) 

在 Python 文档 中 ， 用 户 这 个 词 几 乎 都 是 指 我 和 你 ， 即 使 用 Python 
语言 的 程序 员 。 用 户 与 实现 Python 解释 器 的 开发 者 是 相对 的 。 
此 ，“ 用 户 定 义 的 类 ”表示 使 用 Python 编写 的 类 ， 而 不 是 使 用 C 语言 编写 
的 内 置 类 ， 如 str。 


预 激 (prime， 动 词 ) 


在 协 程 上 调用 next(coro)， 让 协 程 回 前 运行 到 第 一 个 yield 表达 
式 ， 准 备 好 从 后 续 的 coro.send(value) 调用 中 接收 值 。 


元 编程 (metaprogramming ) 
编写 的 程序 使 用 程序 的 运行 时 信息 改变 程序 的 行为 。 例 如 ，ORM 


可 能 会 内 省 模型 类 的 声明 ， 确 定 如 何 验证 数据 库 记 录 里 的 字段 ， 以 及 如 
何 把 数据 库 类 型 转换 成 Python 类 型 。 


元 类 (metaclass ) 


实例 为 类 的 类 。 默 认 情况 下 ，Python 中 的 类 是 type 类 的 实例 ; 例 
如 ，type(int) 得 到 的 结果 是 type 类 ， 因 此 type 是 元 类 。 用 户 可 以 
通过 扩展 type 类 定义 元 类 。 


元 组 拆 包 〈tuple unpacking) 


把 可 迭代 对 象 中 的 元 素 赋值 给 多 个 变量 (例如 ，first，second， 
third == my_list) . Python 高 手 通常 使 用 这 个 术语 ， 不 过 也 有 人 使 
用 可 迭代 对 象 的 拆 包 。 


真 值 (truthy) 

只 要 bool(x) 返回 True, x 就 是 真 值 。 需 要 布尔 值 时 ，Python 会 
隐 式 使 用 bool 计算 对 象 ， 例 如 控制 if M while 循环 的 表达 式 。 与 此 
相对 的 是 假 值 。 
指示 对 象 〈referent) 

引用 的 目标 对 象 。 谈 及 弱 引 用 时 最 常 使 用 这 个 术语 。 
装饰 器 (decorator) 

一 个 可 调用 的 对 象 A， 返 回 另 一 个 可 调用 的 对 象 B， 在 可 调用 的 对 
象 C 的 定义 体 之 前 使 用 句法 @A 调用 。Python 解释 器 读 取 这 样 的 代码 
时 ， 会 调用 A(C)， 把 返回 的 B 绑 定 给 之 前 赋予 c 的 变量 ， 也 束 是 把 C 


的 定义 体 换 成 B。 如 果 目 标 可 调用 对 象 C 是 函数 ， 那 么 A 是 函数 装饰 
器 ;如果 C 是 类 ， 那 么 A 是 类 装饰 器 。 


字 节 字符 串 (byte string) 

可 惜 ， 在 Python 3 中 仍然 使 用 这 个 名 称 指 代 bytes 或 
bytearray。 在 Python 2 中 ，str 类 型 其 实 是 字 节 字符 串 ， 为 了 把 str 
和 unicode 字符 串 区 分 开 ， 才 用 了 这 个 名 称 。 在 Python 3 中 没 理由 继 
续 使 用 这 个 术语 了 ， 泛 指 字 节 序列 时 ， 我 都 尽量 使 用 字 节 序列 《byte 


sequence) 这 个 术语 。 


作者 简介 


Luciano Ramalho 在 1995 年 Netscape 首次 公开 募股 以 前 就 是 一 名 Web 开 
发 者 了 ， 他 先后 用 过 Perl 和 Java, 1998 年 开始 使 用 Python。 和 上 自 那 以 

后 ， 他 在 巴西 的 几 个 新 闻 门 户 网 站 工作 ， 使 用 Python 做 开发 ， 还 为 巴西 
的 媒体 、 银 行 和 政府 部 门 做 Python Web 开发 培训 。 他 经 常 在 开发 者 大 会 
上 演讲 ， 比 如 PyCon US (2013) ~ OSCON (2002、2013 和 2014) , i& 
有 多 年 在 PythonBrasil 〈 在 巴西 举办 的 PyCon) 以 及 FISL《〈 南 半球 最 大 
的 FLOSS 大 会 ) 上 做 过 的 15 次 演讲 。Ramalho 是 Python 软件 基金 会 的 
成 员 ， 还 是 巴西 第 一 个 众 创 空间 Garoa Hacker Clube 的 联合 创始 人 。 他 
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关于 封面 


本 书 封面 的 动物 是 纳 马 沙 蜥 (学 名 : Pedioplanis namaquensis) ， 喘 体 细 
长 ， 有 一 条 呈 红 标 色 的 长 尾巴 。 这 种 沙 蜥 映 体 为 黑色 ， 有 四 条 白 纹 ; 四 
RERE, WAR; 腹部 为 白色 。 


纳 马 沙 晰 白天 活动 ， 是 速度 最 快 的 师 蝎 之 一 。 它 们 栖 姑 在 草木 稀 朴 的 沙 
砾 平 地 ， 冬 季 在 灌木 从 边 挖 的 洞穴 里 休眠 。 纳 马 沙 晰 分 布 于 纳米 比 亚 全 
ee 以 小 昆虫 为 食 。 在 11 H, HES 
下 3~5 WE. 


O'Reilly 出 版 的 图 书 ， 封 面 上 很 多 动物 都 濒临 灭绝 。 这些 动物 都 是 地 球 
的 至 宝 。 如 果 你 想 知 道 如 何 保 护 这 些 动物 ， 请 访问 animals.oreillycom。 


封面 图 片 出 目 Wood 的 Natural History, Vol 3. 


> 
看 完了 
如 采 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbookcom， 会 有 编 
辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 
ebook@turingbook.com. 


在 这 里 可 以 找到 我 们 : 
微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 


。 微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消 奶 
。 微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 


微 信 图 灵 访 谈 : ituring interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 
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